基于深度迁移超图神经网络的单细胞多组学数据整合方法scHyper及其在细胞类型标注中的应用

【字体: 时间:2025年09月01日 来源:Briefings in Functional Genomics 2.5

编辑推荐:

  本研究针对单细胞多组学数据整合中存在的精度不足和模态特异性生物变异保留困难等问题,开发了scHyper深度迁移学习模型。该模型通过构建超图拓扑结构和协方差矩阵对齐策略,实现了配对和非配对单细胞多模态数据的高效整合,在10x Multiome、小鼠图谱等数据集上展现出优越的细胞聚类和标签转移性能,为解析基因调控关系提供了新工具。

  

在单细胞生物学领域,多组学技术的快速发展带来了前所未有的机遇与挑战。随着单细胞RNA测序(scRNA-seq)、染色质可及性分析(scATAC-seq)等技术的成熟,科学家们能够从转录组、表观基因组等多维度解析细胞异质性。然而,如何有效整合这些模态各异的数据成为制约研究进展的关键瓶颈。现有方法在处理配对(垂直整合)和非配对(对角线整合)数据时,往往难以平衡技术差异消除与生物学信号保留的关系,导致过度整合或整合不足等问题。

针对这一科学难题,哈尔滨工业大学的Yulong Kan等研究者在《Briefings in Functional Genomics》发表了创新性研究成果。研究团队开发的scHyper模型通过深度迁移学习与超图神经网络的巧妙结合,成功实现了单细胞多模态数据的精准整合。该方法不仅适用于常规实验数据,更能高效处理包含数十万细胞的图谱级数据集,为大规模单细胞研究提供了有力工具。

研究采用的核心技术方法包括:1)基于Seurat的标准化预处理流程;2)多模态超图构建技术,通过K近邻算法建立RNA和ATAC细胞的超边连接;3)深度迁移学习框架,将scRNA-seq标记信息迁移至scATAC-seq数据;4)超图卷积网络(HGCN)用于捕获高阶数据关联;5)综合评价体系,结合轮廓系数、FOSCTTM等指标评估整合效果。实验数据涵盖10x Multiome配对数据、小鼠图谱非配对数据、PBMC多组数据和人造血系统数据等多个基准数据集。

【ScHyper achieves promising integration results on the paired data】

在10x Multiome配对数据集测试中,scHyper展现出与scJoint相当的整合性能,明显优于Seurat、Liger等方法。t-SNE可视化显示该方法能有效区分细胞类型并整合ATAC与RNA组学数据。定量分析表明其细胞类型轮廓系数(0.82)和模态轮廓系数(0.79)均表现优异,在保持细胞类型信号的同时有效降低了技术变异。

【ScHyper achieves promising integration results on the unpaired atlas data】

面对包含73种细胞类型的小鼠图谱数据,scHyper在非配对数据整合中展现出独特优势。其标签转移准确率达85%,显著高于GLUE(77%)和scJoint(72%)等方法。超图结构成功捕获了不同组学(ATAC、液滴、FACS)间的复杂关系,ASW评分(0.81)证实了该方法在保持细胞类型分辨率方面的卓越性能。

【ScHyper achieves promising integration results on the unpaired PBMC data】

在PBMC多组学数据测试中,scHyper以86%的标签转移准确率领先其他方法。模型成功整合了scATAC-seq、scRNA-seq以及表面蛋白数据,轮廓系数分析显示其能清晰区分CD8+ T细胞等免疫亚群,为复杂免疫微环境研究提供了新思路。

【ScHyper achieves promising integration results on the human hematopoiesis data】

人类造血系统数据分析进一步验证了scHyper的普适性。该模型在35,038个scRNA-seq和35,582个scATAC-seq细胞的整合中,不仅实现了不同组学层的有效融合,还成功构建了基因表达与染色质可及性间的调控网络,为解析造血分化机制提供了重要线索。

研究结论部分强调,scHyper通过超图神经网络独特的拓扑表达能力,首次实现了单细胞多组学数据中非线性高阶关联的有效挖掘。其创新性体现在三个方面:1)建立多组学超图统一表征框架,通过模态特异性超边自然融合异质数据;2)将迁移学习重构为域适应问题,利用标记scRNA-seq数据指导scATAC-seq分析;3)开发低内存消耗的优化算法,使图谱级数据分析成为可能。技术指标显示,在处理10万级细胞数据时,scHyper的内存占用仅为竞争方法的1/3,运行时间缩短60%以上。

这项研究的科学价值在于:一方面为单细胞多组学整合提供了新范式,另一方面通过可解释的深度学习框架揭示了基因调控的潜在机制。值得注意的是,研究者也坦诚指出当前模型的局限性,如"黑箱"特性可能影响下游生物学解释,未来将通过整合注意力机制等策略加以改进。随着单细胞技术的持续发展,这种融合超图理论与迁移学习的方法论,有望在细胞命运决定、疾病异质性解析等领域发挥更大作用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号