
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于数据驱动的非可识别模型降维方法在生物数学建模中的推断与预测研究
【字体: 大 中 小 】 时间:2025年06月06日 来源:Journal of Theoretical Biology 1.9
编辑推荐:
本研究针对理论生物学中参数不可识别性这一关键挑战,提出了一种基于似然重参数化的计算模型降维方法。研究人员通过Fisher信息矩阵特征分解构建可识别的简化模型,系统解决了结构性和实用性非可识别问题,并建立了高效的预测置信集计算方法。该工作为ODE、BVP和PDE等连续介质模型的参数估计与预测提供了通用框架,对推动生物数学建模从理论开发到数据驱动的范式转变具有重要意义。
在理论生物学领域,数学模型开发与实验数据验证之间长期存在"时滞效应"——许多经典模型在提出数十年后才被用于定量数据分析,这时研究者常面临参数不可识别性(non-identifiability)的困境。这种困境表现为:不同参数组合可能产生完全相同的模型输出,使得我们无法从观测数据中确定唯一的参数值。参数不可识别性可分为结构性(structural)和实用性(practical)两类,前者源于模型结构本身的数学特性,后者则由有限噪声数据导致。传统解决方法如重参数化(reparameterisation)往往仅关注模型结构而忽略数据影响,亟需发展数据驱动的新型降维方法。
针对这一挑战,研究人员在《Journal of Theoretical Biology》发表创新性研究,提出基于似然(likelihood)重参数化的计算模型降维框架。该工作通过Fisher信息矩阵(Fisher Information Matrix)的特征分解,将原始参数转换为特征参数(eigenparameters),有效区分可识别与不可识别的参数空间。研究团队系统验证了该方法在常微分方程(ODE)、边值问题(BVP)和偏微分方程(PDE)等连续介质模型中的适用性,并建立了精确预测置信集的计算流程。
关键技术方法包括:1) 基于Nelder-Mead算法的最大似然估计;2) Fisher信息矩阵的自动微分计算与特征分解;3) 剖面似然(profile likelihood)构建参数置信区间;4) 针对加性高斯噪声、乘性对数正态噪声和多分类计数数据的不同噪声模型构建;5) 基于拒绝采样的预测区间计算方法。研究使用Julia语言实现的Jupyter notebooks保证方法可重复性。
【2.1 基于似然的估计与可识别性分析】
通过构建归一化对数似然函数?(θ→|y→obs
),结合χ2
分布阈值确定参数置信集。采用单变量和双变量剖面似然法评估参数可识别性,当剖面似然呈平坦特征时判定为不可识别参数。
【2.2 数据驱动的重参数化】
创新性地利用观测Fisher信息矩阵I(θ→^)的特征分解,将原始参数θ→转换为线性组合的特征参数α→。对于结构性不可识别模型,零特征值对应的特征向量张成不可识别空间,非零特征值对应可识别空间,实现自动降维。
【3.1 生产-衰变模型验证】
以经典ODE模型dx/dt=p-(k1
+k2
)x为例,证明传统方法无法区分k1
和k2
(结构性不可识别),而特征参数化可准确识别组合参数α1
=k1
+k2
和α2
=p。加性高斯噪声下的预测区间验证了方法的可靠性。
【3.2 形态发生梯度模型】
针对反应-扩散方程?u/?t=D?2
u-ku,通过对数参数化处理乘积结构参数,证明J/√(Dk)和√(k/D)是可识别特征参数。乘性对数正态噪声的预测区间显示该方法能保持预测值的生物学合理性(非负性)。
【3.3 细胞侵袭模型】
将FUCCI标记的细胞迁移增殖实验数据与PDE模型耦合,建立多分类似然函数。结果显示在低密度条件下(s<0.2),接触抑制因子(1-s)可近似忽略,但完整模型能避免长期预测的生物学不合理性。
这项研究建立了统一的数据驱动模型降维框架,其核心突破在于:1) 通过数据信息指导重参数化,而非仅依赖先验模型结构;2) 适用于从ODE到PDE的多种数学模型;3) 兼容不同噪声类型的实验数据。特别值得关注的是,该方法能自动识别参数空间的可识别子空间,为复杂生物系统的参数估计提供了可靠工具。在计算生物学领域,这种将数学严谨性与计算实践相结合的研究范式,有望加速理论模型向实验验证的转化,为解决"时滞效应"提供了方法论基础。未来工作可进一步拓展至随机微分方程和高维参数空间等更具挑战性的场景。
生物通微信公众号
知名企业招聘