
-
生物通官微
陪你抓住生命科技
跳动的脉搏
通用微分方程在系统生物学中的应用现状与挑战:混合建模框架的性能评估与优化策略
【字体: 大 中 小 】 时间:2025年09月01日 来源:npj Systems Biology and Applications 3.5
编辑推荐:
本研究针对系统生物学中复杂生物过程建模的难题,创新性地将机理微分方程与人工神经网络(ANN)结合为通用微分方程(Universal Differential Equations, UDEs)。研究人员通过构建多起点优化管道,系统评估了数据噪声、稀疏性及正则化对模型性能的影响,发现正则化能显著提升参数可解释性。该成果为生物系统建模提供了兼顾灵活性与可解释性的新范式,发表于《npj Systems Biology and Applications》,对推动计算系统生物学发展具有重要意义。
在探索生命复杂系统的过程中,科学家们长期面临一个根本性矛盾:已知的生物学机理往往不足以完整描述系统行为,而纯数据驱动的模型又缺乏可解释性。这种困境在系统生物学领域尤为突出——当研究人员试图用微分方程刻画细胞内代谢通路或信号转导网络时,常因部分反应机制未知而陷入建模瓶颈。传统方法要么过度简化生物过程,要么陷入"黑箱"困境,这正是Maren Philipps等学者在《npj Systems Biology and Applications》发表最新研究的出发点。
该研究聚焦通用微分方程(Universal Differential Equations, UDEs)这一新兴建模框架,其核心创新在于将机理模型的可解释性与人工神经网络(Artificial Neural Networks, ANNs)的灵活性有机结合。这种混合方法理论上能同时利用已知生物知识和数据隐含规律,但实际应用中却面临三大挑战:生物系统常见的刚性动力学导致数值求解困难;实验数据通常具有高噪声和稀疏性;ANN组件可能掩盖机理参数的可解释性。研究人员通过构建系统化的评估体系,首次揭示了这些挑战的相互作用规律及解决方案。
研究团队开发了包含三大关键技术的方法学框架:首先建立结合机理项fM和ANN项fANN的混合微分方程体系;其次设计基于最大似然估计(Maximum Likelihood Estimation, MLE)的多起点优化策略,同步采样机理参数θM和ANN参数θANN的初始值;最后引入tanh变换实现参数对数尺度优化,并采用Tsit5/KenCarp4专用求解器处理刚性系统。所有分析均基于真实生物数据场景,包括糖酵解振荡模型和STAT5二聚化数据集。
多起点管道提升UDE训练效果
通过比较单起点与多起点优化策略,研究发现标准单起点方法在糖酵解模型中仅能拟合部分观测物种(如A3),而多起点策略(10,000次初始化)成功捕获完整振荡动态。关键突破在于:同时优化超参数(ANN层数、激活函数)和机理参数,使测试误差降低60%(NMAE从0.35降至0.15)。
数据特性决定模型性能边界
系统评估20种数据场景显示:当噪声超过35%或数据点少于16个/观测值时,模型预测能力急剧下降。有趣的是,在5%噪声和61数据点条件下,UDE能准确重现振荡幅度(误差<5%),但多数低数据量场景仅能恢复阻尼振荡模式。
正则化平衡灵活性与可解释性
权重衰减正则化(λ=0.1-10)使成功拟合概率提升4倍。在STAT5 Scenario 1中,质量守恒约束使ANN正确识别核pApA输出(x6)为关键输入,其符号回归结果6.17×10-2·x6接近真实机制。但过度灵活的ANN仍会导致机理参数θM不可识别,如STAT5模型中参数估计与文献值偏差达103倍。
生物约束增强现实适用性
STAT5 Scenario 3通过引入辅助物种KA/KB/KAB扩展模型维度,虽提高拟合优度(NLL从138.22降至86.88),但AIC/BIC准则显示参数效率低下。这揭示关键权衡:无约束ANN可能产生负浓度等非物理解,而强约束会限制发现新机制的能力。
这项研究确立了UDE在系统生物学中的应用范式:多起点优化是避免局部最优的必要条件,而正则化是保持参数可解释性的关键杠杆。尽管ANN组件的不可识别性仍是挑战,但通过生物约束(如质量守恒)与统计正则化的协同,研究者成功实现了"灰箱"建模的承诺——在糖酵解案例中,仅用1.5个振荡周期的噪声数据即预测出5个周期的动力学行为。该成果为复杂疾病机制研究、多组学数据整合提供了方法论基础,其开源实现(GitHub/ude_pipeline_systemsbio)将加速计算生物学向"可解释的AI"范式转型。
生物通微信公众号
知名企业招聘