综述:结构和实际可识别性:现状与结果更新

【字体: 时间:2025年05月07日 来源:Current Opinion in Systems Biology 3.4

编辑推荐:

  本文聚焦动力学系统参数可识别性,涵盖结构可识别性(SI)和实际可识别性(PI)。SI 分析方法多样且成熟,StrucID 算法快速高效。PI 分析面临挑战,如方法性能权衡、缺乏基准问题和先验预测手段。文章呼吁推动 PI 分析工具的发展。

  

结构和实际可识别性:现状与结果更新


在系统生物学和系统医学的数学建模中,动力学系统参数的可识别性是一个基础概念,它分为模型参数的结构可识别性和实际可识别性,二者在构建有用模型的过程中都起着关键作用。

引言


数学建模对生物和医学问题的研究,以及对复杂动力学系统的理解,高度依赖所使用系统的可识别性。自相关研究在 2021 年发表后,可识别性在理论和实验领域都受到了广泛关注。

可识别性是由常微分方程(ODEs)系统表示的(部分观测)动力学系统的一个属性。在这个系统里,有n个模型状态x(t) ,一组p个需要从实验数据中估计的未知参数θ ,以及外部(可能未知)的刺激u(t)。通过观测函数可以将模型状态映射到时间分辨的实验数据yD,从而得到模型轨迹y。通常,可观测变量的数量m小于状态数量n,这使得系统是部分可观测的。

一般通过比较实验数据yD和模型轨迹y来衡量模型与数据的一致性,常利用正态或对数正态分布噪声定义似然函数,并进行最大似然估计来估计模型参数。

结构可识别性在构建有意义的模型中至关重要,它与参数估计密切相关。不可识别的参数会严重阻碍参数估计,导致似然函数景观平坦,使最大似然估计变得困难甚至无法进行,还会造成 MCMC 采样效率低下或不可行。而且,不可识别的参数往往会导致参数估计出现偏差、不准确和耦合,即使是可识别参数的估计也可能受到影响。

如果对于所有参数集θ,都满足特定条件,那么参数θi就是全局结构可识别的;反之,如果可以在不影响轨迹y的情况下改变该参数,且所有可能的变化都能被其他参数完全补偿,那么它就是结构不可识别的。局部结构可识别性的定义与全局结构可识别性类似,只是将条件限制在局部邻域η(θ)内 。结构可识别性分析最好在前期进行,因为它不需要实验数据,这种主动的方法可以显著促进模型开发和实验设计。

结构可识别性与动力学系统的可观测性密切相关。可识别性是指不同参数对应不同的轨迹,而可观测性是指根据测量的可观测变量唯一确定模型状态的能力。在工程领域,可观测性的概念应用更为普遍。

与结构可识别性不同,实际可识别性是一个依赖数据的属性,这使得问题的定义和分析都更加复杂。一种常见的定义是,如果对于给定的置信水平α,基于χ2分布的置信区间是有限的,那么该参数就是实际可识别的。但这一定义因选择置信水平的随意性而受到批评,不过它仍然是唯一在考虑实际数据时提供明确标准的定义。其他定义往往不是以二元方式回答实际可识别性问题,而是使用实际可识别程度来衡量,这在一定程度上与第一种定义中选择的置信水平类似。影响实际可识别程度的主要因素包括噪声水平、可用数据量以及采样时间点的信息内容和动态。无论采用哪种定义,实际可识别的模型或参数一定是结构可识别的,在数据无限、无噪声且信息丰富的情况下,实际可识别性分析就等同于结构可识别性分析。

本文将探讨结构可识别性分析的最新进展,强调实际可识别性的重要性,并期望促进研究社区共同努力,使实际可识别性分析在未来变得更加简便。

结构可识别性研究的最新进展


过去,结构可识别性分析曾是动力学模型发展的主要瓶颈,但现在已经有了很大改善。多种方法被开发出来,并且在过去两年里,又有新的方法不断涌现,一些之前的方法也得到了改进,如 StrucID 和 STRIKE - GOLDD。许多方法和工具箱不仅可以用于分析结构可识别性,还能找到可识别的参数组合,对最初不可识别的模型进行重新参数化。

结构可识别性分析在多个领域都有应用,特别是在 COVID - 19 大流行背景下,对传染病模型的研究促使人们更加严格地研究模型的这一属性。这有助于模型简化和实验设计,应该成为模型开发过程中的标准步骤。

目前,结构可识别性分析已不再是构建有用模型的瓶颈,快速可靠的方法使科学家能够在模型开发过程中频繁进行分析。过去使用结构可识别性方法时,主要挑战在于部分方法对特定问题和模型条件的适用性有限,以及评估大型现实模型的结构可识别性所需的计算量较大。虽然目前缺乏对不同方法的全面评估,但已有研究对多种方法进行了比较,本文将在此基础上进一步拓展分析。

高效快速识别结构可识别性


Rey Barreiro 等人的基准研究比较了 12 种不同方法在 7 种编程语言中的适用性和计算量。但该研究排除了基于数值或数据的方法,如基于数据的轮廓似然法和 StrucID。

StrucID 利用灵敏度矩阵来分析结构可识别性,不需要实验数据。下面介绍 StrucID 的理论背景、软件可用性和用户友好性,并将现有基准研究结果与 StrucID 进行比较。

灵敏度矩阵方法


根据结构可识别性的定义,可以借助输出灵敏度来分析它。如果输出对参数不敏感,即参数变化时轨迹不变,那么模型就是不可识别的。通过计算灵敏度矩阵S来检查这一属性,灵敏度矩阵的大小为(N?m)×p,它包含了N个离散时间点上,m种不同观测值随p个参数的变化情况 。

灵敏度矩阵的元素由特定公式给出,但其中有一项不能直接从模型方程得到,需要通过对随机选择的参数进行时间上的数值积分来获得。由于是数值积分,计算得到的灵敏度矩阵是一个局部属性,为了扩展分析,建议针对不同参数值计算多个灵敏度矩阵。

确定灵敏度矩阵后,会出现三种情况:一是灵敏度矩阵满秩,此时模型是局部结构可识别的;二是矩阵有一整列元素为零,表明观测值与该列对应的参数完全无关,模型结构不可识别;三是矩阵的不同列线性相关,且矩阵不满秩,说明相关参数存在耦合,模型结构不可识别。通过计算矩阵的秩可以判断这些情况,StrucID 中利用奇异值分解来实现,并设置阈值判断奇异值是否为零。

灵敏度矩阵方法本身不能自动计算可识别的重新参数化,但可以确定不可识别参数出现的组,并且可以利用可识别性分析结果对可识别的参数组合进行简化的符号计算,与分析整个问题相比,这种计算速度更快。

软件可用性和易用性


StrucID 用 Matlab 编写,源代码和编译版本可在 Github 上获取,以方便没有 Matlab 的用户使用。StrucID 分析还集成在 D2D 框架中。该软件适用于有理和无理模型,可处理已知和未知的解析输入,能够测试初始条件的可识别性,用户只需在单个.txt 文件中提供完整的模型结构,输入内容易读且用户友好。

对 StrucID 进行基准测试


为了将 StrucID 的运行时间与已发表的值进行比较,使用 STRIKE - GOLDD FISPO 算法来对比计算设置。对 16 个不同复杂度的模型进行分析,将 StrucID 的计算结果和运行时间与基准研究中的数据进行比较。

结果显示,StrucID 能快速得到结果,且在检测不可识别参数方面没有出现错误。与其他方法相比,StrucID 的运行时间显著更低,对模型结构的依赖性更小。例如,对于某些模型,其他方法的运行时间过长甚至超出限制,而 StrucID 则能高效完成分析。基于 Maple 编写的可观测性测试在处理有理模型时运行速度与 StrucID 相当,但不适用于无理模型,其他基准测试算法在处理无理模型时也无法达到 StrucID 的运行速度。

StrucID 不仅能快速进行可识别性分析,还能辅助模型快速重新参数化。在可识别性分析之后,像 STRIKE - GOLDD 那样的分析计算可以只针对导致模型不可识别的参数进行,减少了需要计算的李导数数量,大大提高了分析效率。

实际可识别性分析仍然具有挑战性的问题


虽然结构可识别性分析不再阻碍模型开发,但实际可识别性分析对动力学建模的典型任务来说仍是一个挑战。当模型参数结构可识别但置信区间无限时,就称其为实际不可识别。使用实际不可识别的模型研究生物学问题,可能会给结果解释和模型预测质量带来麻烦,尽管在某些情况下仍具有一定的预测能力。在迭代模型开发过程中,如果参数实际不可识别,会导致多次参数优化运行变得困难且耗时,因此实际可识别性分析在系统生物学建模社区已成为标准操作。在生长模型、生态种群模型和动物科学等领域,实际可识别性也都具有重要意义,甚至在偏微分方程模型中,实际可识别性还被建议作为模型选择的一个额外标准。

近年来,虽然有多种方法用于解决动力学模型中的实际可识别性分析问题,但目前仍缺乏一种既计算快速又全面的解决方案,主要面临以下三个挑战:

  • 实际可识别性方法的性能权衡:轮廓似然法是最准确的实际可识别性方法,但计算成本较高,因为需要进行逐步优化。一些近似替代方法,如拉格朗日乘数法或聚类高斯 - 牛顿法,虽然提供了更快的解决方案,但可能会导致对参数实际可识别性的错误判断,通常会使计算得到的置信区间比通过逐步优化得到的真实轮廓似然法的置信区间更小。
  • 实际可识别性分析的基准问题:按照当前科学标准,研究项目通常只报告最终结果,而获取结果的过程往往没有详细记录。在数学建模领域,公开可用的模型集合在实际可识别性方面已经处于合理状态,这虽然是普遍期望的,但却导致缺乏用于测试和开发新的实际可识别性分析方法的详细记录问题。生成以实际可识别性为导向的基准集合,不仅有助于新算法的开发,还能方便对不同算法进行比较,就像结构可识别性分析的基准测试那样。项目文档应参考 PEtab 结构,以便尽可能多的建模环境能够快速访问。除了真实场景,基于给定模型结构和参数模拟现实数据集的想法也有助于创建实际可识别性测试场景,特别是结合 BioModels 数据库中的模型,这些模型通常没有提供合适的数据集。在有了实际可识别性基准集合和合适的分析工具后,下一步是区分和分类实际可识别性的典型场景。记录这些问题的基本步骤已经展开,重点在于展示如何通过轮廓似然法以统计合理的方式解决问题。使用二维轮廓似然法有助于理解和描述与实际不可识别性相关的模型参数之间的相互依赖关系,而分析参数路径(即沿着轮廓似然的参数值集合)则更有助于正确解释不可识别性和进行模型简化,但目前参数路径的信息内容在研究社区中尚未得到足够重视。
  • 实际可识别性的先验预测:模型的实际可识别性是结合实验数据定义的,但也有一些方法尝试在没有实验数据的情况下,仅基于模型结构评估实际可识别性分析的预期结果,就像对结构可识别性分析那样。虽然这些方法还处于早期发展阶段,但预计在不久的将来,先验实际可识别性分析将成为一个重要的讨论话题。在模型生成的迭代过程中,先验实际可识别性分析不仅可以指导有用模型的先验选择,还能为实验设计提供支持,特别是针对那些难以精确确定的模型参数。

实际可识别性分析工具的开发仍处于起步阶段,由于任务的数学和统计复杂性,在概念上具有挑战性。此外,基于数据的问题陈述需要生物学解释,且已报道的案例场景数量较少。

结论


目前可用的方法能够高效分析非线性动态模型的结构可识别性,StrucID 等方法可以在短时间内对大多数常用模型进行分析。因此,从实际应用角度来看,结构可识别性分析问题已得到有效解决,它应该成为系统生物学模型开发工作流程的标准部分,不再是模型开发的瓶颈。

实际可识别性分析才是真正的挑战所在。尽管有新的方法和进展,但仍然缺乏一种快速可靠的分析方法,也缺少包含实验数据的真实场景模型集合,用于测试和比较新的实际可识别性分析方法。希望本文所强调的这些方面能够帮助改善这种情况,推动高效全面的实际可识别性分析工具在未来的发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号