-
生物通官微
陪你抓住生命科技
跳动的脉搏
SC2Spa:基于深度学习的单细胞分辨率转录组空间定位新方法
《BMC Bioinformatics》:SC2Spa: a deep learning based approach to map transcriptome to spatial origins at cellular resolution
【字体: 大 中 小 】 时间:2025年06月03日 来源:BMC Bioinformatics 2.9
编辑推荐:
为解决单细胞RNA测序(scRNA-seq)数据空间信息缺失的难题,研究人员开发了深度学习工具SC2Spa,通过整合空间转录组(ST)数据,实现了单细胞分辨率的空间定位。该模型在跨平台验证中优于现有算法,成功识别空间可变基因(SVGs),为解析组织异质性和细胞互作提供了新范式。
在生命科学领域,理解细胞在组织中的空间位置与其功能的关系至关重要。单细胞RNA测序(scRNA-seq)虽能揭示细胞转录组特征,却丢失了空间信息;而空间转录组(ST)技术虽保留位置信息,但分辨率有限或基因覆盖度不足。这种"空间-分子"信息的割裂,阻碍了人们对组织微环境、细胞通讯等生物学过程的深入认知。现有空间映射工具如Tangram、NovoSpaRc等,或依赖转录组相似性,或基于连续性假设,难以实现单细胞精度的定位。
哥本哈根大学、弗吉尼亚联邦大学和雪松-西奈医学中心的研究团队开发了深度学习模型SC2Spa,通过全连接神经网络(FCNN)直接学习转录组与空间坐标的复杂映射关系。该研究通过跨平台验证证明,SC2Spa不仅能将scRNA-seq精准映射至Visium、Slide-seqV2等不同分辨率ST数据,还可识别传统方法遗漏的空间可变基因(SVGs),相关成果发表于《BMC Bioinformatics》。
关键技术包括:1) 构建8层FCNN架构,采用ReLU和Sigmoid激活函数,结合L1正则化优化;2) 基于Wasserstein距离筛选跨批次可比基因;3) 利用5折交叉验证评估性能,通过双变量Moran指数(BVI)量化空间表达一致性;4) 整合小鼠大脑、胚胎及人类肿瘤等10余组ST/scRNA-seq数据集进行验证。
SC2Spa预测各类ST数据的空间位置
在Visium小鼠脑数据测试中,SC2Spa清晰区分海马区(CA)与齿状回,优于SpaOTsc的稀疏预测。通过Slide-seqV2小鼠海马数据5折验证,其预测坐标与真实位置的成对Pearson相关系数达0.82,显著高于Tangram(0.41)。在果蝇胚胎3D-FISH数据中,仅需84个基因即可重构胚胎形态。
独立数据验证与分辨率鲁棒性
将训练于Slide-seqV2 puck_200115_08的模型应用于独立样本puck_191204_01,关键基因Hpca和Pcp4的BVI分别达0.35和0.09。MERFISH小鼠脑数据测试显示,即使将分辨率从20μm降至50μm,空间重构性能仅轻微下降。
scRNA-seq空间映射的突破
将小鼠脑scRNA-seq映射至Slide-seqV2参考数据时,CA1/CA3锥体细胞的预测位置与解剖学一致。在低分辨率Visium训练场景下,SC2Spa仍能准确定位少突胶质细胞(表达Mbp)至白质区域,抑制性神经元(表达Gad2)至下丘脑。
空间可变基因的新发现
通过神经网络权重回溯,SC2Spa鉴定的SVGs与Moran's I指数相关性(r=0.73)优于SpatialDE。发现Gm13872等基因虽被SpatialDE标记为空间可变,但其Moran's I<0.001,提示传统方法存在假阳性。
该研究建立了转录组与空间坐标的直接映射范式,其创新性体现在三方面:1) 首次通过深度神经网络直接学习空间坐标而非概率矩阵,使单细胞精度定位成为可能;2) 突破性地将低分辨率Visium数据转化为单细胞级空间图谱;3) 权重回溯机制为SVGs鉴定提供新思路。未来可应用于肿瘤微环境解析、发育轨迹重建等领域,但需注意其对未见细胞类型的泛化能力限制。这项工作为空间组学时代的数据整合设立了新标准。