基于灰箱贝叶斯优化的流行病学模型高效校准方法研究

《Infectious Disease Modelling》:Epidemiological Model Calibration via Graybox Bayesian Optimization

【字体: 时间:2025年12月22日 来源:Infectious Disease Modelling 2.5

编辑推荐:

  本研究针对传统流行病学模型校准方法在计算昂贵模型中的局限性,提出了基于灰箱贝叶斯优化(BO)的创新校准框架。研究人员通过引入复合函数和函数网络结构,将SIQR等房室模型的功能依赖关系融入BO过程,开发了解耦知识梯度采集函数。实验结果表明,该方法在模拟数据和COVID-19真实数据集上均能显著提升校准效率,降低对数均方误差,为复杂流行病学模型如基于智能体的模型(ABM)的快速校准提供了新思路。

  
新冠肺炎疫情等全球大流行病的暴发,凸显了精准预测传染病传播轨迹的紧迫性。流行病学模型,特别是基于房室(Compartmental)的模型,如经典的SIR(易感-感染-恢复)模型及其扩展版本,成为了解疾病动态、评估风险和制定公共卫生干预措施的关键工具。然而,一个模型要真正发挥作用,其核心参数必须能够准确反映现实世界的传播规律,这个过程被称为模型校准(Model Calibration)。传统的校准方法通常假设模型是“廉价(Cheap)”的,即模型的输出和梯度可以方便地计算,这在模型复杂度较低时是可行的。但在现实世界中,面对非线性的常微分方程(ODE)系统或更复杂的模型(如基于智能体的模型,ABM),模型往往变得“计算昂贵(Expensive)”,其显式形式和梯度难以获取,使得传统优化方法面临巨大挑战。
为了攻克这一难题,来自德州农工大学(Texas A&M University)的Puhua Niu、Byung-Jun Yoon和Xiaoning Qian在《Infectious Disease Modelling》上发表了一项研究,他们独辟蹊径,将目光投向了贝叶斯优化(Bayesian Optimization, BO)。贝叶斯优化是处理“黑箱(Black-box)”函数优化的强大框架,特别适用于目标函数评估成本高昂的场景。它通过高斯过程(Gaussian Process, GP)作为代理模型来近似真实的目标函数,并基于一种称为采集函数(Acquisition Function)的效用函数来智能地选择下一个评估点,从而以较少的评估次数找到最优解。
但本研究并未止步于传统的“黑箱”贝叶斯优化。研究人员认识到,在流行病学模型校准中,我们并非对模型一无所知。例如,在SIQR(易感-感染-隔离-恢复)模型中,各房室之间存在着明确的功能依赖关系:感染人群必然来自易感人群,康复人群则来自感染人群和隔离人群。此外,用于衡量校准效果的指标函数(如基于高斯假设的负均方误差)通常是已知且计算廉价的。这些宝贵的“专家知识”如果被充分利用,有望大幅提升优化的效率。因此,他们提出了“灰箱(Graybox)”贝叶斯优化的新范式。
本研究的核心创新在于将模型校准重新表述为一个灰箱优化问题。具体而言,研究人员没有直接对整体的校准目标函数(即模型输出与观测数据的拟合度)进行高斯过程建模,而是首先使用一组高斯过程来替代昂贵的流行病学模型本身(如SIQR模型的四个房室输出)。然后,将校准目标构建为这些高斯过程输出的一个已知的复合函数(Composite Function)。这种方法避免了对已知、廉价部分的冗余建模,将计算资源集中在真正需要近似的复杂部分。更进一步,他们利用SIQR模型内部的功能依赖结构,构建了一个函数网络(Function Network),其中节点代表模型参数、各房室的高斯过程代理以及校准指标,边则代表它们之间的输入输出关系。这种网络结构即使在部分观测数据缺失(如只观测到感染人数而缺少易感人数)的情况下,也能通过已知的函数依赖来推断未观测部分的信息,增强了校准的鲁棒性。
为了更智能地指导优化过程,研究团队还开发了一种解耦的知识梯度(Decoupled Knowledge Gradient)采集函数。传统的知识梯度采集函数在评估一个候选参数时,会假设所有房室的高斯过程代理模型都根据该点的预测结果进行更新。然而,不同房室动态的模拟复杂度可能不同,某些房室的高斯过程可能需要更多的数据才能准确建模。解耦知识梯度允许优化算法自主决定在评估一个新参数时,仅更新其中一部分(而非全部)房室的高斯过程代理模型。这种灵活性使得优化决策更加精细,能够根据模型各部分的不确定性动态分配“注意力”,从而有望更快地收敛到最优参数。
本研究主要采用了基于高斯过程的贝叶斯优化框架,并引入了复合函数和函数网络结构来构建灰箱优化器。关键技术包括使用蒙特卡洛估计和重参数化技巧来近似计算复杂的采集函数(如知识梯度及其解耦变体),以及通过最大似然估计来优化高斯过程的超参数。在应用于COVID-19真实数据时,还采用了两阶段校准策略,首先校准参数化较简单的模型,然后利用其输出作为初始值,通过伴随梯度法优化更复杂的神经网络增强的模型参数。
研究团队通过大量的实验验证了所提出方法的有效性。他们首先在模拟数据上进行了测试,设置了三种不同的“真实”模型(包括线性和非线性的传播率函数)以及完整观测和部分观测(缺失易感人群数据)两种场景。
实验结果一:灰箱优化显著提升校准效率
在模拟数据上的实验结果表明,无论是传统的期望提升(EI)还是知识梯度(KG),其校准性能(以负对数均方误差衡量)均逊于灰箱贝叶斯优化方法。特别是基于复合函数的知识梯度(KG-CF)和解耦知识梯度(DG-CF)方法,能够以更少的贝叶斯优化迭代次数达到更低的误差水平,收敛速度更快。这证明了利用模型已知结构(复合函数)的有效性。
实验结果二:函数网络在处理不完整数据时展现优势
在部分观测的场景下,即缺失易感人群数据时,引入了函数网络结构的KG-FN方法表现出了更好的稳定性和抗噪声能力,其性能在某些情况下超过了KG-CF。这表明当实际数据存在缺失时,利用模型内部的功能依赖关系进行信息补充是一种有效的策略。
实验结果三:解耦决策带来进一步性能增益
across the board, 解耦知识梯度(DG-CF)方法在多数实验设置下都取得了最佳或接近最佳的性能。这表明允许算法选择性地更新部分代理模型,而不是全部更新,能够更有效地探索参数空间,是一种更高效的决策机制。
实验结果四:在真实世界COVID-19数据上验证实用性
为了评估方法在真实世界的适用性,研究人员使用美国和英国的COVID-19感染人数数据,校准了三种不同复杂度的SIQR模型变体:基本线性模型(ηS)、带非线性隔离率的模型(ηW)以及用神经网络增强隔离率函数的模型(ηNN)。结果显示,基于灰箱优化的方法(KG-CF, KG-FN)成功校准了这些模型,其模拟的感染轨迹能够较好地捕捉真实数据的趋势。其中,KG-FN方法在多数情况下表现出更低的方差和更好的稳定性。更重要的是,通过两阶段校准流程,神经网络增强的模型(ηNN)展现出了更好的拟合能力,说明了该方法对于复杂模型校准的潜力。
该研究成功地将灰箱贝叶斯优化框架应用于流行病学模型校准这一重要且具有挑战性的问题。通过巧妙地融合领域知识(模型结构、性能指标),研究人员突破了传统黑箱优化在处理计算昂贵模型时的瓶颈。所提出的基于复合函数、函数网络和解耦采集函数的灰箱贝叶斯优化方法,在模拟和真实数据上均证明了其卓越的校准效率和鲁棒性。这项工作不仅为SIQR等房室模型的快速、精准校准提供了切实可行的解决方案,其方法论框架更具有广泛的适用性,可扩展至基于智能体的模型等更复杂、计算成本更高的流行病学模拟器,为应对未来传染病威胁提供了更强大的决策支持工具。尽管在函数网络结构的优化方面仍存在提升空间,但本研究无疑为昂贵计算机模型的校准领域开辟了一条富有前景的新途径。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号