基于双交叉注意力机制的多模态扩散模型 scDiffusion-X:实现单细胞多组学数据的高保真生成、跨模态翻译与基因调控网络推断

《Nature Communications》:A multi-modal diffusion model with dual-cross-attention for multi-omics data generation and translation

【字体: 时间:2026年04月16日 来源:Nature Communications 15.7

编辑推荐:

  【编辑推荐】为克服单细胞多组学技术在规模、成本与覆盖范围上的实验限制,研究人员开展了基于潜在扩散模型的多组学数据整合、生成与翻译研究。他们提出了集成双交叉注意力(DCA)模块的 scDiffusion-X 模型。该模型能够生成逼真的多组学数据,实现准确的跨模态翻译,并通过梯度解释框架推断细胞类型特异性基因调控网络(GRNs)。这项研究为解析复杂调控关系、预测扰动响应提供了强大工具,推动了单细胞多组学领域的发现。

  
在生命科学的微观世界里,单细胞多组学技术如同一把高分辨率“望远镜”,让我们得以窥见单个细胞内不同层次分子(如基因组、表观基因组、转录组)的协同运作,为解密复杂的细胞机制提供了前所未有的机会。然而,这把“望远镜”虽好,使用起来却成本高昂、通量有限,且难以同时覆盖所有想要的“观测波段”(即多种分子模态)。这就像想绘制一幅完整的星空图,但每次只能通过一个狭窄的窗口观察一小片天空,既费时又费力,还可能错过许多关键的星体关联。为了突破这些实验瓶颈,强大的计算方法应运而生,它们的目标是整合这些分散的、不同“波段”的观测数据,并在此基础上“模拟”或“预测”出高保真度的数据,从而以更低的成本、更大的规模推动科学发现。那么,有没有一种方法能够不仅高效地融合多组学数据,生成逼真的虚拟数据,还能像“翻译机”一样在不同数据类型间准确转换,甚至揭示数据背后隐藏的基因调控密码呢?发表在《自然-通讯》(Nature Communications)上的一项研究,给出了一个令人振奋的答案。
为了回答上述问题,研究人员主要应用了以下几项关键技术方法:首先,构建了一个基于潜在扩散模型(Latent Diffusion Model)的生成框架,即scDiffusion-X。其核心创新是一个双交叉注意力(Dual-Cross-Attention, DCA)模块,用于自适应地捕获不同分子模态间复杂、隐藏的关系。其次,利用该模型进行多组学数据的生成跨模态翻译任务,并对翻译结果进行不确定性量化。最后,研究人员设计了一个基于梯度的解释框架,将DCA模块转化为可解释工具,用于推断基因调控网络(Gene Regulatory Networks, GRNs)。
研究结果
1. scDiffusion-X 模型架构与双交叉注意力机制
研究人员开发了scDiffusion-X,一个专为单细胞多组学数据设计的潜在扩散模型。模型的核心是双交叉注意力(DCA)模块,它通过交叉注意力机制,使一种模态的潜在表示能够查询并关注另一种模态的信息,从而实现两种模态间双向、自适应的特征交互与融合。与现有的简单拼接或基于对齐的整合方法相比,DCA提供了更灵活、更强大的关系建模能力,为后续的生成、翻译和解释任务奠定了基础。
2. 高保真多组学数据生成
在数据生成任务上,scDiffusion-X 展示了卓越的性能。通过对多个真实单细胞多组学数据集的基准测试,研究表明,scDiffusion-X 生成的数据不仅在细胞水平上高度逼真,能够很好地保留原始的细胞异质性(例如不同细胞类型的分布),还能在全局水平上准确捕获数据的整体结构(如细胞在降维空间中的分布格局)。此外,该模型展现了优秀的可扩展性,能够处理大规模数据集。
3. 准确的跨模态翻译与不确定性量化
超越单纯的数据生成,scDiffusion-X 的一个独特优势是能够进行准确的跨模态翻译。例如,在给定一种分子模态(如染色质可及性数据)的条件下,模型可以预测另一种模态(如基因表达数据)。研究证明,其翻译结果在准确性上优于现有方法。更重要的是,模型内置的扩散过程使其能够对翻译预测进行稳健的不确定性量化,为预测结果提供了可靠性度量,这在生物医学应用中尤为重要。
4. 推断细胞类型特异性基因调控网络
研究人员进一步将scDiffusion-X 的生成能力转化为生物学发现工具。他们设计了一个基于梯度的解释框架,通过分析DCA模块中的注意力权重和梯度信息,可以追溯并识别出对特定细胞状态或跨模态预测有重要影响的基因-基因组区域对。利用这一框架,研究成功地从多组学数据中推断出了全面且细胞类型特异性的、异质性的基因调控网络(GRNs)。这揭示了不同细胞类型中可能差异活跃的转录因子及其靶基因,为理解细胞身份和状态的调控基础开辟了新途径。
研究结论与意义
本研究的结论是,所提出的scDiffusion-X模型成功地将前沿的生成式建模(扩散模型)与生物可解释性深度结合。它不仅是一个强大的多组学数据集成与高保真模拟工具,还是一个能够进行精准跨模态预测并量化其不确定性的“翻译器”。更重要的是,通过其创新的双交叉注意力模块和梯度解释框架,scDiffusion-X 超越了“黑箱”模型,转变为一个能够直接推断细胞类型特异性基因调控网络的生物学发现引擎。
这项研究具有重要意义。首先,在计算生物学方法学上,它为解决单细胞多组学数据整合、生成和翻译的挑战提供了一个统一、强大且可解释的新框架。其次,在生物医学应用层面,scDiffusion-X 能够助力于解析复杂的基因调控关系、模拟和预测细胞对遗传或药物扰动的响应,从而加速在发育生物学、癌症研究和精准医疗等单细胞多组学领域的科学发现进程。通过以较低的计算成本生成和翻译高质量数据,它也有望在一定程度上降低对昂贵、耗时实验的过度依赖,推动更高效、更经济的科学研究。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号