ARTEMIS模型:整合自编码器与薛定谔桥预测单细胞时序基因表达的连续动态变化

【字体: 时间:2025年07月16日 来源:Bioinformatics 4.4

编辑推荐:

  研究人员针对单细胞测序数据离散时间点观测的局限性,开发了整合变分自编码器(VAE)与非平衡扩散薛定谔桥(uDSB)的ARTEMIS模型。该模型通过求解前向-后向随机微分方程(SDEs),成功重构了细胞轨迹、基因表达动态及种群变化,在胰腺β细胞分化、斑马鱼胚胎发育和上皮间质转化(EMT)等数据集上验证了其预测未观测时间点、识别"漂移基因"及模拟细胞状态变化的卓越性能。

  

生命过程的奥秘往往隐藏在细胞行为的动态变化中。从胚胎发育到癌症转移,这些过程的本质是基因表达的精密调控和细胞群体的时空演化。然而,单细胞测序技术虽然提供了前所未有的细胞分辨率,却因高昂成本和破坏性检测方式,只能获得离散时间点的"快照"数据。这就像试图通过几张静态照片理解一部电影的情节——我们失去了关键的连续动态信息,难以重建细胞命运决定的完整轨迹,更无法捕捉细胞增殖与死亡的群体动态。这种数据局限性严重制约了对发育、分化等核心生物学过程的理解。

针对这一挑战,威斯康星大学麦迪逊分校(University of Wisconsin-Madison)Waisman中心的研究团队在《Bioinformatics》发表了突破性研究成果。他们开发的ARTEMIS模型创造性地融合了深度生成模型与最优传输理论:通过变分自编码器(VAE)将高维基因表达数据降维至连续潜空间,再运用非平衡扩散薛定谔桥(uDSB)理论构建前向-后向随机微分方程(SDEs),其中漂移项捕捉基因表达的确定性趋势,而新增的神经网络模块则量化细胞状态变化。这种双管齐下的策略首次实现了从离散观测数据中重建连续动态过程的全链条建模。

研究团队采用了三项核心技术:1)变分自编码器构建基因表达与潜变量的双向映射;2)基于迭代比例拟合算法(IPF)求解薛定谔桥问题,通过前向-后向SDEs学习最优漂移函数;3)设计细胞杀伤率预测网络量化种群动态。这些方法被整合到统一框架中,通过Wasserstein距离等指标联合优化。

【模型性能验证】

在胰腺β细胞分化数据集中,ARTEMIS对保留时间点(t=3,6)的预测误差显著低于PRESCIENT等方法,Wasserstein距离降低10-18%。模型识别的MALAT1、SOX2等"漂移基因"与已知阶段特异性标记高度一致,且成功捕捉到NEUROG3转录因子的瞬时表达特征。特别值得注意的是,模型推断的细胞种群变化曲线与实验观测的归一化比率吻合度达92%。

【发育动力学解析】

应用于斑马鱼胚胎发育数据时,模型在t=4,6,8时间点的重构精度超越scNODE等基线方法。前向漂移分析显示CDX4、TBX16等中胚层决定因子在特定发育阶段起主导作用。差异表达分析揭示,在预测为"死亡"状态的细胞中,凋亡相关基因ZGC:92242表达显著上调(p<1e-4),证实了模型状态预测的生物学合理性。

【EMT机制探索】

在TGFB1诱导的上皮间质转化研究中,ARTEMIS不仅准确预测了中间时间点(t=2)的细胞状态,还鉴定出COL4A2、TPM1等EMT标志基因作为关键漂移因子。通过模拟基因扰动实验发现,TPM1表达量改变会导致细胞在时间轨迹上的分布发生显著偏移(p<0.001):过表达促使细胞向终末状态(t=4)聚集,而敲低则使细胞滞留在早期阶段。

这项研究的创新性体现在三个维度:方法论上,首次将非平衡薛定谔桥引入单细胞时序分析,解决了传统方法无法处理细胞种群变化的瓶颈;技术上,通过VAE与uDSB的协同训练克服了高维数据的"维度灾难";生物学上,建立的"漂移基因"识别框架为解析发育与疾病的关键调控因子提供了新工具。

研究人员在讨论中指出,当前模型在稀疏时间点数据下的分辨率仍有提升空间,且批次效应可能影响预测稳定性。未来通过整合染色质可及性等多组学数据,或将进一步揭示基因表达动态的调控机制。这项研究不仅为单细胞时空建模设立了新标准,其理论框架对再生医学、癌症演进等领域的机制研究也具有重要启示意义。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号