因果解耦与可控反事实生成:单细胞表征学习的新范式

【字体: 时间:2025年07月25日 来源:Nature Communications 14.7

编辑推荐:

  本研究针对单细胞组学数据中生物因子纠缠的难题,开发了首个融合因果结构的扩散模型CausCell。该框架通过结构因果模型(SCM)整合因果先验,在单细胞分辨率下实现基因表达谱的可解释解耦,支持基于因果干预的可靠反事实生成。实验表明其在解耦与重建任务中均超越现有方法,并能从小规模噪声数据中揭示衰老相关基因Lilrb4a的时空表达规律,为构建"虚拟细胞"提供了新工具。

  

在生命科学领域,单细胞技术的突破性进展如同打开微观世界的万花筒,让研究者得以观察细胞群体的惊人异质性。然而,这把"双刃剑"也带来了新的挑战——测序技术固有的噪声干扰、生物因子间的复杂纠缠,以及小样本数据中信号湮没等问题,使得传统"黑箱式"表征学习方法难以揭示真实的生物学机制。尤其当面对时空组学数据时,细胞状态、空间位置、时间进程等多维概念的因果交织,更成为阻碍科学发现的"戈耳狄之结"。

同济大学的研究团队在《Nature Communications》发表的这项研究,创新性地将因果推理与深度学习相结合,开发出CausCell框架。该研究通过建立概念间的因果有向无环图(cDAG),首次在单细胞尺度实现了基因表达谱的因果解耦,并利用扩散模型的动态信息分配特性,突破了解耦精度与重建质量此消彼长的传统困境。关键技术路径包括:1)构建融合SCM层的因果解耦模块,处理来自5个公共数据集的单细胞RNA-seq和MERFISH数据;2)开发基于交叉注意力机制的扩散生成模块;3)设计新型ELBO损失函数确保概念独立性;4)通过PBAGenesScore等指标验证因果干预效果。

因果解耦模块设计

研究团队创新性地将单细胞表达谱分解为可观测概念(如细胞类型、批次效应)与未解释概念的组合。通过结构因果模型(SCM)层建模概念间的线性因果关系,其数学表达z=(I-AT)-1ε将外生变量ε转化为具有因果解释的内生变量z。相较于传统变分自编码器(VAE),该模块在免疫图谱数据集上将细胞类型预测准确率提升23.6%,同时保持单细胞分辨率。

扩散模型的动态解耦

生成模块采用x0-预测器架构的扩散模型,通过50步去噪过程重建基因表达。关键创新在于引入多头交叉注意力机制,使每个去噪步骤都能动态分配信息到不同概念嵌入。在肢体发育数据集测试中,该方法重建的基因表达与原始数据Pearson相关系数达0.91,显著优于scDisInFact等基线模型。

因果干预验证

研究团队在疟原虫感染的时空肝脏数据集上进行了概念干预实验。结果显示,缺乏因果结构的CausCell_IND模型生成的"注射干预"细胞错误地显示高感染评分,而完整模型则准确反映"时间→感染→表达"的因果链。这种因果一致性使反事实生成更符合生物学逻辑。

小数据生物发现

应用该框架分析仅含2只小鼠/年龄组的脑衰老MERFISH数据时,通过年龄概念干预成功复现了6/9已知衰老相关基因的表达趋势。更值得注意的是,发现Lilrb4a在纹状体小胶质细胞中特异性上调,其富集的T细胞激活通路提示该区域存在独特的免疫重塑机制。这一发现为理解神经退行性疾病提供了新视角。

这项研究的突破性在于首次将因果科学与单细胞组学深度结合,其建立的"干预-生成-验证"研究范式,不仅解决了传统方法忽视概念因果依赖的关键缺陷,更通过Lilrb4a等新靶点的发现,展示了因果解耦在挖掘小数据价值方面的独特优势。正如研究者强调的,未来整合自动化因果发现算法与领域知识,有望使该框架成为构建"虚拟细胞"的核心技术,为精准医学研究提供新的方法论支撑。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号