MINIE:基于时间序列多组学数据的多层级动态网络推断新方法
《npj Systems Biology and Applications》:Multi-omic network inference from time-series data
【字体:
大
中
小
】
时间:2025年10月17日
来源:npj Systems Biology and Applications 3.5
编辑推荐:
本研究针对多组学网络推断中忽略分子层级间调控关系及时序尺度差异的难题,开发了MINIE算法。该算法通过贝叶斯回归框架整合单细胞转录组与代谢组数据,利用微分-代数方程(DAE)显式建模跨层级的时序分离特性。实验验证表明,MINIE在线性/非线性合成网络及帕金森病实际数据中均能精准推断基因-基因、代谢物-基因的因果相互作用,其性能显著优于现有方法。该研究为解析复杂生物系统的多层级调控机制提供了创新工具。
在生物学研究中,表型的形成源于分子层级间复杂的相互作用。然而,传统的数据驱动网络推断方法多局限于单一组学层面,忽视了跨层级的调控关系。此外,不同分子层级的调控存在显著的时间尺度差异(如代谢反应以秒计,而基因表达以小时计),这进一步增加了多组学数据整合的难度。尽管高通量技术已能同步获取转录组、蛋白质组、代谢组等多组学数据,但如何从这些动态数据中推断出因果性的调控网络,尤其是跨层级的相互作用,仍是系统生物学面临的重要挑战。
为了解决这些问题,来自卢森堡系统生物医学中心的研究团队在《npj Systems Biology and Applications》上发表了他们的最新研究成果。他们开发了一种名为MINIE(Multi-omIc Network Inference from timE-series data)的计算方法,旨在从时间序列多组学数据中推断多层级调控网络。
MINIE的核心技术方法主要包括几个关键步骤。首先,它采用微分-代数方程(DAE)框架来显式建模快(如代谢物)慢(如基因)变量的动态过程,其中慢动态用微分方程描述,快动态用代数约束近似。其次,算法通过一个两阶段流程进行推断:第一阶段利用稀疏回归从批量代谢组和转录组数据中推断转录组-代谢组映射关系(Γ);第二阶段将单细胞转录组数据(scRNA-seq)和推断出的单细胞水平代谢物轨迹整合到一个贝叶斯回归框架中,通过高斯过程(GP)建模基因动态,并利用马尔可夫链蒙特卡洛(MCMC)采样同时推断伪时间(pseudotime)、网络拓扑结构和模型参数。该方法特别整合了来自人类代谢图谱(Human GEM)的先验知识以约束代谢网络结构,并利用帕金森病(PD)患者来源的诱导多能干细胞(iPSC)分化为多巴胺能神经元过程中的时间序列多组学数据进行实验验证。
MINIE的输入为时间序列的批量代谢组数据和单细胞转录组数据。其算法流程分为两步:第一步利用批量数据推断转录组与代谢组之间的映射关系Γ;第二步将该映射关系与单细胞数据结合,通过贝叶斯回归推断调控网络。MINIE采用DAE模型(公式1)来刻画系统动力学,其中基因表达动态由微分方程描述,代谢物浓度由于变化迅速而被近似为代数约束。该方法通过三个MCMC采样器迭代估计伪时间、网络拓扑和基因轨迹等参数,最终输出一个置信度矩阵,表示每个调控相互作用存在的概率。
在一个包含3个基因和2个代谢物的线性多层网络基序上,MINIE表现出色。通过对100个合成数据集的测试,MINIE能够以高置信度(AUROC = 0.99)完美地重构出真实的网络拓扑结构(图2c-e),证明了该方法在线性低维模型中的可靠性。
为了检验MINIE在更复杂场景下的性能,研究团队使用了两个非线性生物模型:一个从文献中整理的包含9个基因、8个代谢物和26个相互作用的多组学网络,以及经典的大肠杆菌lac操纵子模型。在整理的多组学网络中,MINIE取得了0.93的AUROC值,成功推断出包括鸟氨酸(Ornithine)到SREBPlc在内的关键跨层级调控链接(图3)。在lac操纵子模型中,尽管系统存在强非线性和时滞调控,MINIE依然准确推断出关键相互作用(如异乳糖(allolactose)对mRNA的抑制),AUROC和AUPRC(精度-召回曲线下面积)分别达到0.93和0.85(图4),展示了其在机制性现实条件下的稳健性。
由于MINIE是首个专门为时间序列多组学数据设计的网络推断方法,研究团队通过两种策略进行基准测试。首先,在合成的多组学数据集上,MINIE的性能显著优于最先进的GRN推断方法BINGO和dynGENIE3(图5),其AUROC和AUPRC分别高出约13%和8%,这突显了其多组学整合设计的优势。其次,在仅使用单细胞转录组数据的BEELINE基准测试框架下,MINIE在多种合成网络基序(如分叉、三叉等)和整理网络(如HSC, GSD)上也表现出顶级或极具竞争力的性能(图6),证明了其在单细胞数据推断方面的强大能力。
研究人员将MINIE应用于一个真实的帕金森病研究数据集。该数据集包含了来自PINK1基因突变患者和健康对照的iPSC分化为多巴胺能神经元过程中六个时间点的scRNA-seq和批量代谢组学数据。MINIE成功推断出一个包含基因-基因、代谢物-基因相互作用以及潜在扰动靶点的大规模调控网络(图7)。通过对预测结果进行文献比对,发现多个高置信度的预测与神经退行性病变已知机制相符,例如线粒体功能相关基因ATP5A1、细胞骨架动力学调节因子RHOA等。此外,还发现了一些新的潜在相关链接,如谷氨酸(Glutamate)与TAF7、氧化型谷胱甘肽(GSSG)与CALM2的调控关系,为PD研究提供了新的可验证假设。
MINIE的成功开发为从动态多组学数据中推断因果调控网络提供了一个强大的新工具。其核心创新在于通过DAE框架显式处理分子层级间的时序尺度分离,并巧妙地将批量代谢组信息与单细胞转录组变异性整合于统一的贝叶斯推断中。研究结果表明,专门为多组学数据特性设计的算法相较于直接套用单组学方法具有显著优势。MINIE在合成数据和真实帕金森病数据上的成功应用,不仅验证了其方法的有效性,也展示了其在揭示复杂疾病机制、发现新的生物标志物和药物靶点方面的巨大潜力。
当然,MINIE也存在一些局限性,例如其对先验代谢网络知识的依赖、线性映射假设对非线性关系的简化、以及MCMC采样在高维情况下的计算复杂度等。未来的工作可以着眼于整合更多组学层(如蛋白质组)、开发更灵活的非线性映射方法、以及改进基准测试框架等方面。总体而言,这项研究推动了多组学网络推断领域的发展,为更全面、动态地理解生命系统的调控逻辑奠定了重要的方法学基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号