stTransfer:基于图自编码器与迁移学习的单细胞分辨率空间转录组注释新方法

《Cell Reports Methods》:stTransfer enables transfer of single-cell annotations to spatial transcriptomics with single-cell resolution

【字体: 时间:2025年10月17日 来源:Cell Reports Methods 4.5

编辑推荐:

  本研究针对当前空间转录组(ST)技术因检测灵敏度与基因覆盖度不足导致的单细胞水平注释难题,开发了stTransfer计算框架。该方法通过变分自编码器(VAE)消除批次效应,结合XGBoost分类器迁移单细胞RNA测序(scRNA-seq)注释信息,并利用图自编码器(GAE)整合空间位置信息,在模拟数据、小鼠大脑、人类非小细胞肺癌和小鼠精子发生等数据集上验证了其优越性能,最终应用于斑胸草雀视顶盖的Stereo-seq数据,揭示了神经元亚群的空间分布规律,为组织细胞架构研究提供了强大工具。

  
在生命科学领域,空间转录组学(Spatial Transcriptomics, ST)技术近年来蓬勃发展,使得研究人员能够在原生组织环境中观察基因表达模式。然而,当前ST技术仍面临检测灵敏度有限、基因覆盖不全等挑战,严重制约了其在单细胞水平进行精确细胞类型注释的能力。虽然单细胞RNA测序(single-cell RNA sequencing, scRNA-seq)可提供高分辨率细胞类型信息,但如何将其与空间转录组数据有效整合,实现单细胞级别的空间注释,成为该领域亟待突破的技术瓶颈。
现有计算方法如Seurat、SingleR、CellDart等仅基于RNA表达水平进行映射,而Spatial-ID、RCTD、Cell2Location、Tangram和DestVI等虽尝试整合空间坐标信息,但仍存在三大局限:对scRNA-seq与ST数据间批次效应处理不足、空间位置信息利用不充分、缺乏单细胞级别注释的分辨率。这些限制促使研究人员开发更强大的计算框架,以在空间背景下实现高精度细胞类型注释。
在此背景下,周涛等人在《Cell Reports Methods》上发表了题为"stTransfer enables transfer of single-cell annotations to spatial transcriptomics with single-cell resolution"的研究论文,提出了stTransfer这一创新性计算框架。该方法通过整合变分自编码器(Variational Autoencoder, VAE)、XGBoost分类器和图自编码器(Graph Autoencoder, GAE),成功实现了单细胞分辨率的空间转录组注释,在多个基准数据集上超越了现有方法的表现。
研究人员为开展本研究采用了几个关键技术方法:首先利用VAE进行批次效应校正,将scRNA-seq和ST数据的基因表达矩阵编码为低维潜在表示;其次采用XGBoost模型从注释scRNA-seq数据中学习细胞类型分布;最后通过GAE捕获细胞间空间邻域关系,生成空间感知的细胞嵌入。研究还应用了斑胸草雀视顶盖的Stereo-seq数据和单核RNA测序(snRNA-seq)数据,其中动物实验经郑州大学机构审查委员会批准(ZZUIRB2022-23),所有样本均为商业可获得。
stTransfer的计算流程
stTransfer采用三步策略实现高分辨率空间细胞类型注释。
第一步,通过变分自编码器对单细胞基因表达矩阵和ST基因表达矩阵进行重构训练,获得统一的细胞嵌入矩阵,有效消除批次效应同时保留生物变异。第二步,使用单细胞数据的嵌入矩阵训练XGBoost分类器模型,获取从单细胞数据学习到的教师分布。第三步,基于ST数据中每个细胞的空间位置信息构建图嵌入,通过计算空间细胞间关系得到邻接矩阵。第四步,将ST细胞嵌入矩阵输入自编码器编码器获得潜在表示X,将X和邻接矩阵A输入GAE的图编码器获得空间嵌入S,结合X和S得到最终潜在表示Z。同时利用自编码器解码器重构细胞嵌入矩阵,利用GAE的图解构器重构邻接矩阵,并训练分类器与教师分布D。第五步,重新输入细胞嵌入矩阵和邻接矩阵,通过编码器和图编码器获得Z,最终预测每个空间单细胞的细胞类型。
stTransfer在复杂组织模式伪ST数据上的优异表现
为严格评估stTransfer在单细胞分辨率ST数据上的性能,研究人员使用两种模拟伪ST数据集进行广泛基准测试。这些数据集精心设计以模拟真实生物场景:一种模拟分层组织(如大脑皮层),另一种代表块状结构(如肿瘤区域)。在分层结构数据集中,stTransfer表现出色,注释准确率达到70%,超过所有其他评估方法。在分类精度方面,stTransfer的加权F1分数为68%,显著优于DestVI的16.7%。在块状结构数据集分析中,stTransfer达到峰值性能指标,准确率74%,加权F1分数70.6%。尽管功能先进,stTransfer仍保持计算效率,处理时间仅略长于RCTD和Seurat。这些发现凸显了stTransfer在单细胞分辨率下准确注释复杂ST模式的强大能力。
stTransfer在高分辨率小鼠大脑ST数据中的卓越准确性
为了严格评估ST注释方法的性能,研究人员将stTransfer应用于小鼠大脑冠状切片的高分辨率STARmap数据。研究聚焦STARmap数据集中的六个随机选择切片,共包含265,102个细胞和1,022个基因,全面覆盖小鼠半脑。单细胞参考数据集来自相同脑区,包含138,783个细胞和27,998个基因,详细注释了23种不同神经细胞类型。比较分析显示,stTransfer在注释这一复杂神经数据集方面表现突出,在所有六个STARmap数据集上平均准确率达到82.07%,优于所有竞争方法。stTransfer的平均加权F1分数为80.23%,进一步支持其作为神经ST数据注释最可靠工具的地位。UMAP降维显示stTransfer预测细胞类型与真实细胞类型之间高度一致,混淆矩阵显示细胞类型匹配准确度高,Spearman相关性进一步验证了方法的生物相关性和精确性。
stTransfer在人类非小细胞肺癌ST数据中的稳健表现
为了评估stTransfer在临床相关数据上的性能,研究人员将其应用于人类非小细胞肺癌的高分辨率ST数据集。该数据集使用CosMx SMI平台生成,包含20个组织样本,共计83,642个细胞和980个测量基因。参考注释使用来自相同组织区域的单细胞数据,包含49,532个细胞,与空间数据集共享15种常见细胞类型。分析表明stTransfer在这一临床数据集上表现卓越,所有20个样本平均注释准确率达到85.36%,显著超越竞争方法。stTransfer的平均加权F1分数为82.2%,进一步支持其在复杂肿瘤微环境中一致准确解析不同细胞群体的能力。
stTransfer在非单细胞分辨率小鼠精子发生ST数据中的应用
为评估stTransfer处理非单细胞分辨率ST数据的能力,研究人员测试了其在Slide-seq生成的小鼠精子发生数据集上的性能。该数据集包含24,105个点和24,105个基因,捕获精子发生中九个关键细胞类型。stTransfer在这一挑战性数据集上表现出强大性能,六个样本平均准确率最高达62.43%。尽管其加权F1分数60.31%略低于cell2location的60.38%,这种微小差异可归因于数据集的固有复杂性。每个点可能包含1-10个细胞,这种场景更适合基于解卷积的方法。混淆矩阵显示cell2location在解析混合细胞点方面略具更好稳定性,凸显了非单细胞分辨率数据相关的挑战。
stTransfer在斑胸草雀视顶盖空间图谱构建中的突破性应用
视顶盖(optic tectum, OT)在哺乳动物中称为上丘,是跨脊椎动物高度保守的脑结构,作为感觉信息处理的中心枢纽。为了以高分辨率研究OT的细胞和功能组织,研究人员利用Stereo-seq技术研究斑胸草雀的OT。从两个斑胸草雀大脑中,研究人员生成了OT的高质量单核RNA测序图谱,经过严格质量控制后包含27,489个单细胞和19,306个基因。Leiden聚类和标记基因注释识别出16个不同细胞簇,为空间映射提供详细参考。利用Stereo-seq,研究人员在单细胞分辨率下获得了ST数据,捕获六个数据集中共计103,103个空间解析细胞。通过SpaGCN聚类和解剖学注释,使用stTransfer将snRNA-seq参考与Stereo-seq数据整合,创建了斑胸草雀OT的全面单细胞分辨率空间图谱。
分析揭示了OT中细胞类型组成的显著空间梯度。最外层侧视区富含少突胶质细胞,而最内层脑室周围灰质区主要包含表达NPTX2的EX3细胞,该基因对发育过程中兴奋性突触形成和突触可塑性至关重要。位于中央灰质和脑室周围灰质层之间的中央白质层中,研究人员观察到高浓度表达CABP7、DPP6和KCNG1的EX4细胞。EX4细胞标记物的GO富集分析显示它们参与突触后特化和短期突触可塑性,可能将这些细胞与斑胸草雀视觉信号的短期记忆联系起来。
研究结论与讨论部分强调,stTransfer代表了空间转录组学领域的重要进展,解决了单细胞分辨率与空间背景之间的关键差距。该方法通过整合VAE进行批次效应校正、XGBoost进行迁移学习以及GAE进行统一嵌入,确保在单细胞和空间转录组数据集之间实现精确且上下文感知的细胞类型注释。当应用于斑胸草雀OT数据集时,stTransfer揭示了深刻的生物学见解,发现了细胞群体的明显空间分布及其潜在功能作用。这些发现不仅深化了对OT在视觉处理和突触可塑性中作用的理解,也彰显了stTransfer在复杂组织中揭示新生物机制的能力。
尽管优势明显,stTransfer仍存在一定局限性:关键挑战包括其对高质量参考数据集的依赖以及不同技术间空间分辨率的变异性。这些领域为未来改进提供了机会。算法的持续完善,加上ST平台的进步,有望增强stTransfer的准确性并扩大其在不同物种和组织类型中的适用性。总体而言,stTransfer作为整合单细胞和空间转录组数据的强大而多功能工具,为在原生空间背景下探索组织的细胞和功能组织提供了机会,为推进对复杂生物系统的理解铺平了道路。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号