scSpecies:基于深度学习的跨物种单细胞转录组网络架构对齐新方法

《Genome Biology》:scSpecies: enhancement of network architecture alignment in comparative single-cell studies

【字体: 时间:2025年11月22日 来源:Genome Biology 9.4

编辑推荐:

  本研究针对跨物种单细胞RNA测序数据整合中存在的基因集差异和表达模式变异等挑战,开发了scSpecies深度学习方法。该方法通过条件变分自编码器预训练和中间特征空间对齐策略,成功实现了小鼠、人类等多物种肝脏、脂肪组织和胶质母细胞瘤数据的有效整合,显著提升了细胞类型标注迁移准确性和差异基因表达分析可靠性,为利用模式生物数据解读人类单细胞数据提供了有力工具。

  
在生物医学研究领域,模式生物如小鼠等为理解人类生物学和疾病机制提供了重要窗口。然而,由于物种间存在的基因组差异和基因表达模式变异,将模式生物的实验结果直接转化为人类临床应用面临严峻挑战。单细胞RNA测序(scRNA-seq)技术的出现为跨物种比较研究带来了新机遇,但如何有效整合不同物种的单细胞数据仍然是一个亟待解决的问题。
传统的数据整合方法如架构手术(architecture surgery)技术在处理跨物种数据时存在明显局限。一方面,约20%的人类蛋白编码基因缺乏一对一的小鼠直系同源物,导致部分基因信息丢失;另一方面,功能相似的细胞在不同物种中可能表现出截然不同的基因表达模式,这使得神经网络难以识别真正的生物学对应关系。这些因素共同导致现有方法在跨物种数据对齐时往往产生错误的对齐结果。
为了解决这些挑战,Schachter等人在《Genome Biology》上发表了题为"scSpecies: enhancement of network architecture alignment in comparative single-cell studies"的研究论文。该研究开发了一种名为scSpecies的深度学习方法,专门用于增强跨物种比较单细胞研究中的网络架构对齐能力。
关键技术方法
研究人员基于条件变分自编码器(CVAE)框架,设计了包含预训练和微调两阶段的算法流程。首先在小鼠等模式生物数据上预训练scVI模型,然后将其最后编码器层转移到人类目标网络架构中。通过数据级和模型学习相似性的双重引导,在中间特征空间而非数据层面实现架构对齐。该方法利用同源基因上的最近邻搜索建立细胞对应关系,仅需部分基因为同源基因即可实现有效对齐。实验涵盖了肝脏、白色脂肪组织和胶质母细胞瘤免疫反应细胞等多个物种和组织类型的数据集。
研究结果
scSpecies返回可用于注释迁移的对齐跨物种表示
研究人员将scSpecies工作流程应用于三个小鼠-人类数据集对,包含肝脏细胞、白色脂肪组织细胞和胶质母细胞瘤免疫反应细胞。对齐程序仅轻微影响目标解码器网络的重建质量,在肝脏细胞图谱上,对齐的scSpecies目标解码器实现了-1158.9的平均对数似然值,与原始scVI模型的-1157.7相比仅有微小差异。
UMAP嵌入可视化显示,潜在空间中相似细胞类型 across species 成功对齐。没有上下文对应物的细胞类型与相关细胞类型对齐或形成 distinct clusters。通过潜在最近邻搜索进行的细胞类型标签迁移在大多数情况下准确,分类错误主要发生在相似细胞类型之间。对于粗细两种细胞类型标签,scSpecies在肝脏数据集上分别达到92%和73%的平衡准确率,在胶质母细胞瘤数据上为89%和67%,在脂肪组织数据上为80%和49%。
scSpecies的相似性度量指导对齐并可用于匹配细胞类型
研究发现,scSpecies在训练过程中能够动态调整目标细胞与上下文细胞的对应关系。通过追踪从上下文原型细胞的潜在表示解码目标原型基因表达值的对数似然差异,研究人员观察到对齐过程从随机匹配逐渐优化为生物学合理的对应关系。对于最近邻搜索结果噪声较大的细胞类型(如肝细胞、迁移性DC和嗜碱性粒细胞),在训练后期能够成功将其与适当的对应细胞类型对齐。
scSpecies定义的内部相似性度量能够准确评估目标细胞类型与上下文细胞类型之间的相似性。大多数跨物种同源细胞类型被正确分配了高相似性分数,表明该度量可用于跨物种匹配注释标签和发现同源细胞类型。仅在数据集严重不足且最近邻搜索结果 predominantly 错误的亚细胞类型中出现错误匹配。
scSpecies优于其他方法并在小数据集上表现良好
与多种基于CVAE的对齐方法相比,scSpecies在物种混合方面表现出色,表明跨物种潜在空间更加 harmonized。在生物学结构保存方面,scSpecies在四个指标中的两个上优于其他方法,特别是在比较潜在Leiden簇和细胞类型标签的调整兰德指数(ARI)和标准化互信息(NMI)方面表现优异。
使用k=25邻居的scSpecies综合得分为0.678,超过了sysVI(0.665)、带匹配注释的SATURN(0.647)、scPoli(0.609)、scVI(0.591)和scArches(0.548)。在细胞类型标签迁移方面,scSpecies达到73.5%的平衡准确率,显著优于其他方法。分析不同邻居集大小的影响发现,k=25在大多数指标上表现最佳,而过大的邻居集(k=250)仅带来 minimal 额外增益。
在小数据集场景下,即使目标数据集仅有1,000-50,000个细胞,scSpecies仍能保持合理的对齐性能。当共享特征集减少时,性能逐渐下降,但在共享基因集完全移除仅保留原始邻居匹配的情况下,scSpecies仍能实现准确对齐,仅导致平衡标签迁移准确率下降4%,表明初始最近邻搜索匹配是该方法的重要组成部分。
scSpecies可对齐多物种数据集
研究人员利用scSpecies同时对齐了患有脂肪肝疾病的小鼠、人类、猪、猴子、鸡和仓鼠的肝脏细胞,使用相同的小鼠健康数据训练的上下文模型处理每个目标数据集。尽管某些数据集中与小鼠有直系同源关系的基因不到一半,但仍成功获得了跨物种的对齐潜在表示。
scSpecies提供跨物种细胞遗传表现的见解
通过使用上下文和目标解码器模型解码潜在表示,研究人员获得了每个物种的标准化基因表达向量,从而能够比较具有相似生物学特性但可能存在不同文库大小的细胞的基因表达谱。
对同源基因按解码器标准化基因表达输出空间中的log2折叠变化(LFC)进行排名,发现在小鼠和人类肝脏数据集中均存在的细胞类型中,64%的基因表现出LFC值大于1,61%的基因在超过90%的解码样本中差异表达。其中,26%的人类基因上调,35%下调。在数据级最近邻搜索难以找到准确匹配的细胞类型中,差异表达基因比例最高。
通过层间相关性传播(LRP)计算的相关性分数显示,共享基因和非共享基因之间没有实质性差异,表明仅使用共享基因集进行训练会保留目标模型用于推导其潜在表示的信息部分。基因表达水平与相关性分数之间存在显著正相关,表明高表达基因成为神经网络的相关特征。
研究结论与意义
scSpecies通过中间神经网络层对齐数据集表示,成功解决了跨物种单细胞数据整合中的关键技术挑战。该方法在多种物种和组织类型的数据上表现出色,即使目标数据集规模较小或共享特征有限时仍能保持稳健性能。其内部相似性度量为发现跨物种同源细胞类型提供了新工具,而基因表达谱比较能力则为理解物种间分子差异提供了独特视角。
该研究的局限性包括对目标数据集特有细胞类型的识别能力有限,以及对稀有细胞类型的对齐可靠性依赖足够样本量。未来发展方向包括适应多模态数据集整合、提高潜在空间稳定性,以及开发直接识别目标数据集特有细胞类型的指标。
scSpecies为更有效利用模式生物实验成果理解人类生物学建立了新范式,有望促进生物医学研究中跨物种发现的转化应用。通过提供可靠的跨物种数据对齐框架,该方法将加速从模型 organism 到临床应用的知识转化,推动精准医学发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号