STAMapper:基于异质图神经网络的高精度单细胞空间转录组细胞类型映射与注释新方法
【字体:
大
中
小
】
时间:2025年10月08日
来源:Genome Biology 9.4
编辑推荐:
为解决单细胞空间转录组(scST)数据细胞类型注释难题,Shen等开发了异质图神经网络STAMapper。该方法在81个数据集上验证显示其准确率最优(75/81),能精准识别细胞亚型、修正模糊注释、检测未知细胞类型并提取功能基因模块,为空间组学分析提供了强大工具。
在单细胞生物学研究领域,科学家们一直面临着一个关键挑战:虽然单细胞RNA测序(scRNA-seq)技术能够揭示细胞类型的惊人多样性,但这些细胞在组织中的原始空间位置信息却在测序过程中丢失了。近年来兴起的单细胞空间转录组学(scST)技术,如MERFISH、STARmap和Slide-tags等,虽然能够同时获取基因表达和空间位置信息,但由于其检测基因数量有限、测序质量较低,导致传统的基于聚类的细胞类型注释方法往往效果不佳。
目前存在的核心问题在于:现有计算方法难以准确地将scRNA-seq参考数据集中的细胞类型标签转移到scST数据中。一些已有方法如scANVI、RCTD和Tangram等在处理这类数据时,往往无法清晰识别细胞簇的模糊边界,也不能同时识别两个数据集间共享或特有的基因模块。更重要的是,领域内缺乏一个大规模的标准数据集来系统评估不同方法在各种ST技术和组织来源中的表现。
为了解决这些挑战,来自复旦大学和中国人民大学的研究团队在《Genome Biology》上发表了题为“High-precision cell-type mapping and annotation of single-cell spatial transcriptomics with STAMapper”的研究论文。他们开发了一种名为STAMapper的创新计算方法,通过异质图神经网络结合图注意力分类器,实现了从scRNA-seq数据到scST数据的精准细胞类型注释。
研究团队收集了来自8种技术、5种组织的81个scST数据集(共344个切片)和16个配对的scRNA-seq数据集,构建了迄今为止最全面的基准测试集。STAMapper在这些数据上的表现显著优于所有现有方法,在81个数据集中的75个上取得了最高的准确率。该方法不仅能够提供比人工注释更精确的细胞边界识别,还能检测scST数据中的未知细胞类型,并实现精确的细胞亚型注释。
关键技术方法包括:构建细胞和基因异质图网络,使用图注意力机制进行信息传递和分类,采用改进的交叉熵损失函数进行模型训练,整合了81个scST数据集和16个scRNA-seq数据集进行验证,应用未知细胞检测算法识别新细胞类型,通过基因嵌入相似性分析发现功能相关的基因模块。
STAMapper实现scST数据的精准细胞类型映射
研究团队通过系统性基准测试验证了STAMapper的卓越性能。在81个数据集上,STAMapper的准确率显著高于scANVI(p=2.2e-14)、RCTD(p=1.3e-27)和Tangram(p=1.3e-36)。即使在测序质量较差的情况下(通过四种不同的下采样率模拟),STAMapper仍然保持最高的准确率、宏F1分数和加权F1分数。特别是在基因数少于200的scST数据集中,当下采样率为0.2时,STAMapper的准确率中位数达到51.6%,远高于scANVI的34.4%。
STAMapper在视网膜层状结构中的精确细胞类型定位
应用STAMapper到小鼠视网膜MERFISH数据集时,研究发现该方法能够一致地优于其他三种方法。STAMapper成功识别了在人工注释中被遗漏的细胞类型,如视网膜色素上皮细胞(RPE)、周细胞(PC)和网织细胞(RET)。通过标记基因表达和空间位置验证,STAMapper的注释与视网膜解剖结构完美吻合,从外层视网膜细胞到内层支持细胞形成了完整的空间分布模式。
在下丘脑MERFISH数据应用中,STAMapper展现了86.3%的注释准确率,显著高于scANVI(72.6%)和RCTD(67.3%)。该方法能够准确恢复细胞簇边界,避免不同细胞类型之间的错误混合。特别值得注意的是,STAMapper成功识别了OD newly formed细胞(表达标记基因Sema4d),这类细胞在人工注释中未被识别。通过未知细胞检测机制,STAMapper能够将参考数据中不存在的细胞类型正确标注为未知,大幅提高注释准确性。
应用STAMapper到NanoString技术测序的肝细胞癌空间数据,研究发现该方法能够揭示不同细胞类型之间的清晰边界。STAMapper识别了一个独特的肿瘤微环境结构:巨噬细胞包裹恶性细胞,T细胞位于外层,最外层由成熟B细胞组成。这种结构与标记基因表达高度一致。进一步分析发现,靠近巨噬细胞的恶性细胞具有更高的干性(stemness)和MHC-I评分,但增殖能力较低,提示巨噬细胞可能通过影响肿瘤细胞的免疫识别和干性特征在肿瘤免疫逃逸中发挥关键作用。
STAMapper揭示人皮层分层结构中的细胞亚群定位
在Slide-tags技术生成的人前额叶皮层(PFC)数据中,STAMapper成功实现了单核RNA数据集与空间数据的对齐。研究发现了一个表达GPR17的少突胶质细胞特殊亚群(Oligo_GPR17),该基因作为少突胶质细胞分化和髓鞘形成的内在计时器,表明这些细胞可能处于分化或发育状态。通过基因嵌入分析,研究发现共享通路越多的基因对具有越高的余弦相似性。从基因嵌入中提取的14个基因模块显示了在scRNA-seq和空间数据共同细胞类型中相似的转录模式,其中模块12在与分化和发育相关的通路中富集。
研究结论与讨论部分强调,STAMapper的成功主要源于其在统一异质图中同时利用参考和查询细胞,其中所有细胞共享相同的节点类型并连接到共同的基因节点集。这些基因节点作为共享锚点,能够桥接参考和查询数据,使模型能够捕获跨数据集的一致表达模式。研究收集的81个scST数据集来自5种不同组织和8种不同技术,并配有相应的scRNA-seq数据集作为参考,这些标准化数据集有望成为测试scST-seq数据注释方法的基准流程。
STAMapper在准确注释scST数据方面表现出卓越效能,对不同空间测序技术和多样组织来源都具有鲁棒性。该方法不仅能够提供比现有方法更精确的细胞类型注释,还能识别新的细胞亚型、修正模糊注释、检测未知细胞类型,并提取具有生物学意义的基因模块。这些功能使得STAMapper成为空间组学分析中强大的工具,为理解细胞功能与其在组织和器官内物理位置之间的复杂相互作用提供了重要技术支持。
研究的局限性在于当前版本的STAMapper没有整合细胞的空间信息,且仅使用一个scRNA-seq数据集作为参考可能导致某些细胞类型的遗漏。未来工作可考虑使用多个参考数据集来注释空间数据,并探索如何合理利用空间信息来提高注释准确性。此外,STAMapper有望扩展到整合组织学图像和空间位置信息的方向,进一步丰富其应用场景。
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号