
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于对比学习的单细胞多组学数据整合框架sCIN:突破跨模态对齐技术瓶颈
【字体: 大 中 小 】 时间:2025年08月28日 来源:Briefings in Bioinformatics 7.7
编辑推荐:
本研究针对单细胞多组学数据整合中存在的分布差异和特征空间不匹配问题,开发了基于对比学习的sCIN框架。该创新性方法通过模态特异性编码器和对比损失函数,在SHARE-seq、CITE-seq等数据集上实现了跨scRNA-seq/scATAC-seq/scADT的精准对齐,Recall@k和ASW指标显著优于scGLUE等6种前沿方法,为解析细胞异质性提供了新工具。
单细胞测序技术的爆发式发展带来了前所未有的细胞分辨率,但同时也抛出了一个关键难题:如何将来自同一细胞群体的不同组学数据(如基因表达和染色质可及性)进行有效整合?这就像试图将用不同语言书写的同一本小说章节重新对齐——每种技术(scRNA-seq、scATAC-seq等)都用自己的"方言"描述细胞状态,导致直接比较变得困难重重。更棘手的是,现有方法在处理非配对数据(即不同组学来自不同细胞群体)时性能急剧下降,严重制约了临床样本的分析潜力。
来自德黑兰大学的Amir Ebrahimi团队在《Briefings in Bioinformatics》发表的这项研究,提出了革命性的sCIN框架。该框架灵感源自自然语言处理领域的CLIP模型,创造性地将对比学习引入单细胞多组学整合。就像语言翻译中的"双语对齐"训练,sCIN通过双编码器架构将不同组学数据映射到共享的128维潜在空间,在配对数据中直接对齐同一细胞的跨模态测量,在非配对数据中则利用细胞类型标签作为"罗盘"引导对齐。特别值得注意的是,研究者设计了严格的防数据泄露评估流程,在10次重复实验中验证了方法的稳健性。
关键技术方法包括:1)基于三种线性层+批归一化的模态特异性编码器;2)针对配对/非配对数据设计的动态对比损失函数,最小化正样本对(同细胞/同类型)距离而最大化负样本对距离;3)使用10x Genomics PBMC(10k)、SHARE-seq等四类真实数据集和模拟非配对数据集进行验证;4)采用Recall@k、ASW等5项指标进行多维度评估。
研究结果部分展现出系统性突破:
模型评估显示sCIN在SHARE-seq数据集(32,231个小鼠皮肤细胞)上Recall@50达0.7,较次优模型Con-AAE提升23%。如图2a所示,随着k值增大性能持续提升,证明其捕获深层生物学关系的能力。在Median Rank指标中,sCIN以接近零的标准化值(图2b)证实了跨模态嵌入的紧密性。更引人注目的是,t-SNE可视化(图2f)清晰显示整合后的嵌入空间比原始数据(图2e)更好地保留了22种细胞类型的拓扑结构。
在10x PBMC数据集(9,631个免疫细胞)中,sCIN展现出惊人的泛化能力。如图3所示,其ASW得分超越第二名Con-AAE 0.12,且t-SNE图中19种免疫亚群的分离度显著优于原始数据。对于表面蛋白组学数据,sCIN在CITE-seq数据集(90,261个骨髓细胞)上Recall@k曲线持续上升(图4a),而其他方法均出现平台期,这归因于其巧妙利用稀缺的ADT数据标签指导训练。
非配对数据测试中,研究者通过逐步"剥离"配对数据集模拟真实场景。如图5所示,即使仅保留1%的ATAC-seq细胞,sCIN仍能保持高于随机基线3倍的Recall@k值。在真实非配对肾脏数据(Muto-2021)上,sCIN以0.938的cell type@k(图5e)和0.761的ASW(图5f)碾压scGLUE等对手,证明其处理临床常见非配对样本的独特优势。
这项研究的意义不仅在于技术突破,更开创了单细胞数据整合的新范式。相比依赖硬样本挖掘的Con-AAE或复杂图结构的scGLUE,sCIN通过更优雅的对比学习策略实现了三大飞跃:1)首次在统一框架中支持配对/非配对数据整合;2)在CITE-seq等稀疏模态中实现超乎预期的性能;3)通过模块化设计确保结果可解释性。正如作者指出,未来扩展至连续发育过程分析和多组学整合将是重要方向。这项工作为解开细胞异质性的"戈尔迪之结"提供了锐利的新工具,其代码开源更将加速单细胞研究从技术导向向生物学发现的转变。
生物通微信公众号
知名企业招聘