scMGCL:基于图对比学习的单细胞多组学数据高效整合新方法

【字体: 时间:2025年07月11日 来源:Bioinformatics 4.4

编辑推荐:

  单细胞多组学数据整合对解析细胞状态至关重要,但现有方法面临异质性数据整合困难、计算效率低下等挑战。西安电子科技大学团队开发了scMGCL框架,通过图对比学习实现scRNA-seq与scATAC-seq数据的鲁棒整合。该方法利用跨模态对比学习策略,在保持细胞类型聚类精度的同时显著提升计算效率,为多组学研究提供新工具。

  

单细胞测序技术的突破让科学家能够以前所未有的分辨率解析细胞异质性,但单模态数据(如仅检测转录组的scRNA-seq或仅检测染色质可及性的scATAC-seq)只能提供细胞状态的片面信息。随着多组学技术的发展,同时检测同一细胞中多个分子层的数据成为可能,但如何整合这些异质性数据仍面临巨大挑战——传统线性降维方法(如PCA)难以捕捉非线性关系,现有算法在计算效率与生物信号保留间难以平衡,跨物种分析时性能波动显著。

西安电子科技大学计算机科学与技术学院的研究团队在《Bioinformatics》发表的研究中,提出了scMGCL(single-cell Multi-omics Graph Contrastive Learning)框架。该方法创新性地将图神经网络与对比学习结合:首先构建模态特异的k近邻细胞相似图(KNN),通过三层图卷积网络(GCN)生成低维嵌入,再以RNA和ATAC模态互为自然增强进行对比学习。这种双优化机制既保留了模态特异性信号,又通过最大化跨模态互信息实现精准对齐。

关键技术包括:1)将scATAC-seq峰数据转换为基因活性矩阵;2)基于欧氏距离构建模态特异性KNN图(公式1-2);3)采用三层次GCN架构(公式3-5)与对比投影头(公式6-7);4)基于余弦相似度的对比损失函数(公式8)驱动跨模态对齐。

3.1 高效稳定的跨模态整合
在PBMC和SNARE-seq数据集上的测试显示,scMGCL的整合质量评分(SUM=ARI+NMI+F1)最高达2.797,比次优方法提升>0.82。批处理熵(BE)在所有数据集均达0.9以上,显著优于MultiMAP(△BE>0.362)等工具。如图2所示,其UMAP可视化呈现完美的模态重叠与清晰的亚群界限,而SCALEX等工具则出现明显的模态分离(图3)。

3.2 精准的RNA-to-ATAC标签迁移
通过KNN分类评估,scMGCL对稀有细胞类型(如占比<2%的树突细胞)的预测准确率仍>70%,在PBMC Multiome数据集达90.2%(图5A)。标记基因分析验证了生物学一致性:LEF1在初始T细胞中的可及性与表达量显著正相关(r=0.9),CD3D在所有T细胞亚群中稳定表达(图5B),证实整合过程未破坏生物学关联。

3.4 消融实验验证架构优势
移除图结构(scMGCL-MLP)导致聚类质量下降(△SUM>0.165),改用MSE损失则产生生物学不合理的过平滑(图7)。参数敏感性分析确定最优配置:学习率0.0006、PCA维度30、邻居数20、隐藏层300维(图8),温度系数τ=0.1可平衡判别力与泛化性(图S17)。

该研究通过三大创新解决了多组学整合的核心难题:1)以模态固有图结构替代人工增强,提升生物相关性;2)GCN传播多尺度细胞关系,增强稀有亚型识别;3)稀疏图优化使PBMC3k数据集整合仅需28.8秒,内存占用减少8倍(图6)。与scGPT等基础模型联用时(图S22),进一步实现△SI提升0.08,为构建单细胞多组学分析生态系统提供了关键技术支撑。未来通过扩展非配对数据整合和动态图构建,有望推动更复杂的多模态细胞图谱研究。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号