
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于半监督对比学习的变分自编码器scGCM:单细胞多模态马赛克数据整合新方法
【字体: 大 中 小 】 时间:2025年08月06日 来源:BMC Bioinformatics 3.3
编辑推荐:
本研究针对单细胞多模态数据整合中的高维度、稀疏性和批次效应等挑战,提出基于变分自编码器(VAE)的scGCM框架。通过模块化编码器设计、图对比学习和三元组半监督学习,实现了RNA、ATAC、ADT等多模态马赛克数据的高精度整合,在10X_PBMC等数据集上NMI达0.9,显著优于现有方法。该成果为复杂生物系统的单细胞多组学研究提供了新工具。
在单细胞生物学研究领域,科学家们正面临一个甜蜜的烦恼:随着测序技术的爆发式发展,现在能同时获取单个细胞的转录组(RNA)、表观基因组(ATAC)和蛋白质组(ADT)数据,就像给细胞拍"全景照片"。但这些"照片"存在严重问题——不同实验室用不同设备拍摄的"照片"无法直接比较,有些"照片"还缺失关键部分(如仅有RNA没有ATAC数据)。更棘手的是,单细胞数据本身就像打满马赛克的拼图,存在高维度(数万个基因)、高稀疏性(多数基因计数为零)等技术难题。
北京大学跨学科医学研究中心、数学科学学院和定量生物学中心的王梓豪、吴泽宇与邓明华团队在《BMC Bioinformatics》发表的研究,开发了名为scGCM的智能"拼图大师"。这个基于变分自编码器(VAE)的深度学习框架,通过三大技术创新:模块化编码器处理缺失模态、图神经网络保持细胞空间关系、对比学习消除批次效应,成功将多源单细胞数据整合成清晰的"细胞图谱"。在10X_PBMC等标准测试中,其聚类准确率(NMI 0.9)比现有方法提高10-20%,尤其擅长处理临床常见的"残缺"数据集。
关键技术包括:1) 模块化VAE架构分别处理RNA/ATAC/ADT数据;2) 基于K近邻图的拓扑结构保持技术;3) 信息最大化对比学习(infoNCE)构建正负样本对;4) 利用部分标记细胞的三元组损失(triplet loss)增强分类边界。所有实验均使用公开的PBMC(外周血单核细胞)和小鼠皮层数据集验证。
主要结果
scGCM整合转录组和染色质可及性配对数据
在人类PBMC(10X_PBMC)和小鼠皮层(Chen_2019)等RNA+ATAC数据测试中,scGCM的归一化互信息(NMI)和调整兰德指数(ARI)均达0.8-0.9。如图2所示,其UMAP可视化能清晰区分pDC细胞(标记基因TCF4+)、B细胞(BANK1+)和NK细胞(NKG7+),而传统方法如Seurat产生模糊聚类。特别值得注意的是,该模型通过图交叉熵损失(graph cross-entropy)成功保留了原始数据的局部邻域结构。

三模态整合突破
面对DOGMA-seq提供的RNA+ATAC+ADT三模态数据(图3),scGCM展现出独特优势。其通过乘积专家(Product of Experts)算法融合不同模态的后验分布,使批次整合评分(iLISI)达0.6,远超MOFA+等基准方法。在表面蛋白标记分析中,该模型同时捕获到B细胞特异的MS4A1基因表达和CD20蛋白丰度,证实多模态特征的协同作用。

结论与展望
该研究开创性地将图神经网络与对比学习引入单细胞多模态整合领域,其提出的scGCM框架在保持数据拓扑结构的同时,通过半监督学习有效缓解了批次效应。相比需要完整数据的MOFA+或依赖先验知识的GLUE,该方法对现实世界中常见的"残缺"数据集展现出更强适应性。尽管在稀有细胞类型识别(如il_score_f1 0.7 vs Snap 0.8)方面仍有提升空间,但其模块化设计为未来整合更多模态(如空间转录组)预留了接口。随着单细胞多组学技术向临床转化,这类智能整合工具将为精准医学研究提供关键支持。
生物通微信公众号
知名企业招聘