编辑推荐:
为解决单细胞多组学数据因特征相关性差异和技术限制难以整合的问题,研究人员开发 scMODAL 框架。其利用神经网络和 GANs 对齐细胞嵌入、保留特征拓扑,在多数据集上有效去除变异、保留生物信息,助力下游分析,推动相关研究。
在生命科学研究领域,单细胞技术的飞速发展让科学家们能够从转录组、表观基因组和蛋白质组等多个维度,在单细胞分辨率下全面描绘细胞状态。这些技术为深入理解细胞功能和疾病机制提供了海量数据,但随着数据的积累,如何将不同模态的数据进行整合分析成为了巨大挑战。不同模态数据之间特征相关性差异显著,像蛋白质丰度与其编码基因表达量之间,由于受到转录后调控等因素影响,相关性往往较弱;而且部分技术检测的特征数量有限,比如基于抗体的单细胞蛋白质组学只能检测几十到几百个蛋白质靶点。传统的整合方法大多针对单细胞 RNA 测序(scRNA-seq)数据的批次效应校正,或适用于特征强相关的组学数据,难以应对上述复杂情况。在此背景下,耶鲁大学的研究人员开展了相关研究,开发出 scMODAL 这一通用深度学习框架,该研究成果发表在《Nature Communications》上。
研究人员主要采用了以下关键技术方法:运用神经网络作为编码器,将不同模态的单细胞数据映射到共享潜在空间;借助生成对抗网络(GANs)中的判别器,最小化潜在分布之间的 Jensen-Shannon 散度,以实现细胞嵌入的对齐;利用已知正相关的特征构建互近邻(MNN)对作为锚点,通过 L2 惩罚项使锚点对的嵌入保持接近,引导整合过程;同时通过正则化细胞的几何表示,保留每个数据集的几何结构,防止过度校正导致的信息丢失。研究使用了多种公开的单细胞多组学数据集,如人类外周血单个核细胞(PBMC)的 CITE-seq 数据集、骨髓的 Ab-seq 和 CyTOF 数据集、PBMC 的 TEA-seq 数据集以及小鼠脑的 scRNA-seq 和 scATAC-seq 数据集等。
基准测试:基因表达与蛋白质丰度整合
在人类 PBMC 的 CITE-seq 数据集上,将 scMODAL 与 MaxFuse、bindSC 等方法进行对比。未整合时,CD4 T 细胞和 CD8 T 细胞在蛋白质丰度上差异明显,但在基因表达上相似度较高。整合后,scMODAL 在混合指标、k 近邻批次效应测试(kBET)得分上表现优异,标签转移准确率高达约 98%(一级注释)和 86%(二级注释),平均轮廓宽度(ASW)得分显著高于其他方法,能清晰区分自然杀伤(NK)细胞、CD4 T 细胞和 CD8 T 细胞。即使使用仅含 30 个蛋白质的简化面板,scMODAL 仍表现出色。在蛋白质丰度预测方面,其与真实数据的平均相关系数为 0.53,显著优于 MaxFuse 和 bindSC,且能更准确地恢复蛋白质丰度规模。此外,通过 scMODAL 的预测特征,还能推断基因 - 蛋白质相关网络,揭示潜在的调控关系。
有限共享特征与三模态整合测试
在整合 CITE-seq 和 CyTOF 这两种仅含 12 个共享蛋白质标记的骨髓数据集时,scMODAL 的混合性能良好,标签转移准确率最高,细胞类型轮廓系数显示其能更好地保留生物变异。消融研究表明,对抗学习目标有助于数据混合,MNN 锚点正则化辅助细胞状态匹配,几何结构正则化防止过度校正。在三模态整合的 TEA-seq 数据集测试中,scMODAL 成功整合转录组、表位和染色质可及性数据,保留了 B 细胞、T 细胞等的 distinct 簇,RNA 到 ADT 和 RNA 到 ATAC 的标签转移准确率分别为 87% 和 83%,是唯一两项准确率均超 70% 的方法,而其他方法在该任务中表现欠佳。
小鼠脑数据整合与调控推断
将 scMODAL 应用于小鼠脑皮层的 scRNA-seq 和 scATAC-seq 数据集整合,整合后相同细胞类型的细胞在潜在空间中正确对齐。通过 Louvain 方法发现 15 个簇,其中 9 个对应不同神经元亚型,相关分析表明相同 Louvain 簇标签的不同模态细胞相似度较高。对兴奋性神经元簇的分析显示,其标记基因在两种模态数据中的表达模式一致,说明 scMODAL 正确对齐了皮层神经元细胞簇结构。基因表达插补结果显示,部分基因的插补表达模式更接近 scRNA-seq 数据,而非基于 scATAC-seq 的基因活性评分,且能推断出与基因表达相关的顺式调控相互作用。
扁桃体数据整合与空间结构识别
整合人类扁桃体的 CODEX、scRNA-seq 和 scATAC-seq 数据集,scMODAL 成功将 scRNA-seq 的细胞类型标签转移至 CODEX 和 scATAC-seq 数据。借助转移的标签,在 CODEX 数据中识别出边缘区 B 细胞(B-CD22-CD40)和生发中心 B 细胞(B-Ki67),并揭示了扁桃体中 B 细胞滤泡的空间结构。通过插补的 MKI67 基因表达,准确反映了生发中心 B 细胞的增殖动态,且基于插补数据推断的细胞间通讯通路与 Visium 样本结果一致,证明了 scMODAL 在空间多组学分析中的能力。
scMODAL 通过深度学习技术,有效解决了单细胞多组学数据整合中特征相关性弱和技术限制的难题,能够准确对齐细胞嵌入、保留生物变异并识别细胞亚群。其在跨模态特征插补和调控关系推断等下游任务中的表现,为深入理解细胞内复杂分子机制和细胞间相互作用提供了强大工具。尽管依赖已知特征链接可能限制其在某些场景的应用,但其在多种复杂数据集上的优异表现,彰显了其在单细胞多组学研究中的重要价值,有望推动该领域在疾病机制、细胞治疗等方面的发展。