BiCLUM:基于双边对比学习的非配对单细胞多组学数据整合新方法

《PLOS Computational Biology》:BiCLUM: Bilateral contrastive learning for unpaired single-cell multi-omics integration

【字体: 时间:2026年02月09日 来源:PLOS Computational Biology 3.6

编辑推荐:

  本文提出BiCLUM(双边对比学习非配对多组学整合)方法,通过同时实施细胞水平和特征水平的跨模态对齐,解决单细胞多组学(如scRNA-seq、scATAC-seq、CITE-seq)非配对整合难题。该方法利用先验基因组知识转换特征空间,结合双边对比学习框架,在多个基准数据集上显著优于现有方法,并保留染色质可及性与基因表达间的生物学调控关系,为转录因子活性推断、细胞互作图谱构建等下游分析提供稳健框架。

  
概述
单细胞多组学技术的快速发展使得能够在单个细胞水平同时测量多种分子模态(如转录组、表观基因组),为全面理解细胞状态和功能提供了强大工具。然而,大多数现有单细胞技术仍聚焦于单一模态,限制了对不同模态间相互联系的深入探索。非配对多组学数据集整合面临两大挑战:不同特征空间间细胞对应关系未知,以及非scRNA-seq模态中细胞类型特异性活动的认知有限。BiCLUM应运而生,其核心创新在于通过双边对比学习框架,同步实现细胞水平和特征水平的跨模态对齐。
方法设计
BiCLUM的整合流程包含三个关键步骤:
  1. 1.
    数据转换:利用先验生物学知识(如基因-峰值关联或基因-蛋白质对应关系)将非RNA模态(如scATAC-seq或蛋白质数据)转换为与scRNA-seq共享特征空间的基因活性评分矩阵。例如,scATAC-seq数据通过ArchR或Signac等工具转换为基因活性矩阵,而蛋白质数据则直接匹配至其编码基因。
  2. 2.
    细胞对与特征对构建:基于转换后的数据,采用互最近邻(MNN)算法在细胞水平构建跨模态配对,同时在特征水平建立一对一对应关系(如基因-基因或基因-蛋白质对)。
  3. 3.
    双边对比学习:通过双编码器分别学习细胞嵌入和特征嵌入,结合重建损失(确保原始数据结构保留)和双边对比损失(细胞级损失Lcell和特征级损失Lfeature),迫使正样本对(MNN细胞对或特征对)在潜在空间中靠近,负样本对远离。总损失函数为L= Lrecon+ αLcell+ βLfeature,其中α和β为超参数(默认104)。
实验结果
BiCLUM在五类真实多组学数据集上进行了系统评估,包括配对/非配对PBMC(外周血单核细胞)、BMMC(骨髓单核细胞)、肾脏组织及CITE-seq数据:
  • PBMC数据整合:在配对和非配对PBMC数据中,BiCLUM的UMAP可视化显示scRNA-seq和scATAC-seq细胞高度混合且细胞类型边界清晰(图2A-B)。PAGA轨迹分析进一步验证其能捕捉CD4+/CD8+T细胞分化路径等生物学合理轨迹(图2C-D)。定量指标中,BiCLUM在omics混合度(GC、SAS、ASW-O)和细胞类型保守性(MAP、ASW、NMI)上均优于或匹配16种对比方法(图2G-H),且标签转移精度(LTA)最高、FOSCTTM值最低(图2I-J)。
  • 肾脏数据整合:BiCLUM不仅实现模态混合,还清晰分离近端小管(PT)、足细胞(PODO)等复杂细胞类型(图3A)。下游分析显示,其基因嵌入能识别与肾脏发育相关的标志基因(图3H),并通过细胞-细胞相似性网络推断出肾单位段间的相互作用(如CNT与DCT间强连接,图3I)。
  • BMMC与CITE-seq整合:在骨髓和蛋白质数据中,BiCLUM同样达到最优量化指标(图4-6),尤其在RNA-蛋白质弱相关性场景下,MNN对构建仍能保持66%的细胞类型匹配率,证明其对复杂模态的鲁棒性。
生物学意义验证
  • 转录因子活性推断:基于BiCLUM基因嵌入的模块化分析,通过DoRothEA数据库富集发现738个转录因子(TFs),其中高置信度(A-C级)TFs比例显著高于原始RNA数据或PCA基线(图3E-G),表明其能捕捉更可靠的调控信号。
  • 基因-峰值关联保留:在BMMC数据中,BiCLUM识别的标志基因与关联峰值的相关性(均值0.308)显著高于随机对照(图4H),证实整合过程保留了染色质可及性与基因表达间的生物学关联。
  • 超参数敏感性:系统测试显示BiCLUM对超参数(如MNN近邻数kmnn、温度参数τ)变化不敏感,且在种子随机性实验中表现出高可重复性(图7I)。消融实验进一步验证细胞级对比损失(α)对整合效果贡献更大。
局限与展望
当前BiCLUM假设特征间为简单一对一对应,未来可扩展至多对多或图结构关联以适配复杂调控网络。同时,支持三模态及以上整合、结合空间转录组数据将是重要方向。
结论
BiCLUM通过双边对比学习框架,在非配对单细胞多组学整合中实现了细胞与特征的双重对齐,其优越的量化性能、生物学可解释性及鲁棒性使其成为多组学分析的有力工具。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号