基于可解释基因程序实现单细胞与空间组学数据的稳健整合与注释的SSpMosaic框架
《Cell Genomics》:Robust integration and annotation of single-cell and spatial omics data using interpretable gene programs
【字体:
大
中
小
】
时间:2025年12月23日
来源:Cell Genomics 9
编辑推荐:
本研究针对单细胞与空间多组学数据整合中存在的批次效应、模态差异及参考依赖性强等挑战,开发了SSpMosaic计算框架。该框架通过构建跨数据集的“元程序(metaprograms)”作为生物学锚点,实现了跨批次、跨模态、跨物种的单细胞数据整合,并支持从spot级到亚细胞级的分辨率无偏空间转录组解卷积。研究进一步在心肌梗死和胶质母细胞瘤等疾病模型中验证了其识别空间域动态和细胞生态型的能力,为理解组织微环境提供了新范式。
随着单细胞RNA测序(scRNA-seq)和空间转录组技术的飞速发展,科学家们能够以前所未有的分辨率解析细胞异质性及其在组织中的空间分布。然而,不同组学模态(如转录组、表观基因组、蛋白质组)的数据在稀疏性、噪声水平和分辨率上存在显著差异,导致跨数据集整合困难。传统深度学习模型常被视为“黑箱”,虽预测精度高却缺乏生物学可解释性;而基于基因程序的方法虽能捕捉功能模块,但难以灵活处理多模态数据或整合空间依赖性。这些局限阻碍了人们对复杂组织中细胞状态和相互作用的系统性理解。
针对上述问题,南京大学陈迪群团队在《Cell Genomics》上发表了题为“Robust integration and annotation of single-cell and spatial omics data using interpretable gene programs”的研究,提出了SSpMosaic计算框架。该框架以“元程序(metaprograms)”为核心,通过无监督策略识别细胞特异性基因程序,并利用网络传播算法构建跨数据集共享的功能模块,最终实现多组学数据的统一分析与注释。研究结果表明,SSpMosaic在跨批次、跨物种和跨模态整合中均优于现有方法,并能精准注释细胞类型、解析空间组织,甚至在没有单细胞参考数据的情况下识别保守的空间生态型。
SSpMosaic首先通过差异共表达分析构建簇特异性基因程序,再基于网络传播算法计算程序间相似性,生成跨数据集的元程序。随后利用元程序作为锚点,通过图神经网络实现单细胞数据整合,或通过非负最小二乘法(NNLS)优化进行空间转录组解卷积。在心肌梗死多组学分析中,整合了单核RNA测序(snRNA-seq)、染色质可及性(snATAC-seq)及空间转录组数据;在胶质母细胞瘤和克罗恩病数据中,直接从空间数据推断元程序,实现无参考的空间表征。
SSpMosaic实现跨批次、跨模态及跨物种的单细胞数据稳健整合
在人类结直肠癌(CRC)四批次scRNA-seq数据整合中,SSpMosaic的调整兰德指数(ARI)达0.91,显著优于FastMNN、Harmony等方法。跨物种整合人鼠脑细胞图谱(38万细胞)时,能清晰区分兴奋性(Ext)与抑制性(Inh)神经元亚型。在整合小鼠scRNA-seq与scATAC-seq数据时,其整合评分(Avg score)达0.89,有效消除模态特异性噪声并保留细胞类型信号。
通过泛癌单细胞参考数据构建的元程序,在胆管癌(CHOL)和神经元亚型数据中实现高精度注释,甚至识别出抑制性神经元Inh_PVALB和Inh_VIP的细分亚群(如Inh_PVALB_1/2)。在Tabula Sapiens跨组织数据中,SSpMosaic发现未注释的血小板和膀胱上皮细胞亚群,并通过功能富集分析揭示其特异性通路。
在鼠嗅球(MOB)55μm分辨率数据中,SSpMosaic准确标注颗粒细胞层(GCL)、僧帽细胞层(MCL)等结构,其准确率优于CARD、RCTD等方法。在16μm分辨率的Visium HD海马体数据中,清晰区分CA1、CA3和齿状回(DG)神经元分布,且解卷积结果与标记基因表达高度相关(Pearson相关系数最高)。此外,在CosMx非小细胞肺癌(NSCLC)单细胞分辨率数据中,识别出免疫富集区、肿瘤核心区等8个空间域,并发现GALECTIN和VEGF信号通路在肿瘤核心与边界区的特异性激活。
通过对齐snRNA-seq与snATAC-seq的元程序,SSpMosaic将心肌梗死组织切片分为11个空间域,包括肌源性、纤维化、炎症和稀有细胞群。莫兰指数(Moran’s I)分析显示缺血区(IZ)和纤维化区(FZ)的空间域分布更具结构性。细胞通讯分析发现SPP1通路在髓系细胞与成纤维细胞间交流中显著活跃,提示其在心肌修复中的关键作用。
在26例胶质母细胞瘤(GBM)切片中,SSpMosaic直接推断出17个元程序,包括MES缺氧(MES.Hyp)、未折叠蛋白反应(UPR)等。通过封装指数(Encapsulation Index)分析,将切片分为TAM-缺氧封装型(E-TAM-hyp)和混合型(I-TAM-hyp),前者显示VISFATIN和MIF信号增强,提示其促进M2巨噬细胞极化和假栅栏结构形成。
SSpMosaic通过可解释的元程序统一了单细胞与空间多组学数据分析,在保持生物学意义的前提下实现了数据整合、注释及空间解析的突破。其优势在于规避了黑箱模型的可解释性局限,并能适应不同分辨率与技术平台。未来需进一步验证元程序在动态生物过程(如发育或疾病进展)中的保守性,并拓展至更多模态(如蛋白质组或代谢组)。该框架为揭示组织微环境的功能架构提供了新工具,有望推动精准医学和疾病机制研究。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号