
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于剪枝优化的智能体模型校准新方法在HPV传播模拟中的应用研究
【字体: 大 中 小 】 时间:2025年06月06日 来源:Journal of Theoretical Biology 1.9
编辑推荐:
本研究针对智能体模型(ABM)校准过程中计算成本高、效率低的难题,创新性地将机器学习中的剪枝(pruning)技术引入流行病学模型HPVsim的校准框架。研究人员通过设计累积拟合优度(cGOF)指标,系统评估了中位数剪枝(Median)、连续减半(SH)和超带(Hyperband)等六种剪枝算法在不同时间偏态数据集中的表现,发现中位数剪枝在平衡数据集表现最优,而激进剪枝(SH4)对后重数据集特别有效。实验证实剪枝技术可使校准速度提升50%以上,且开发的自适应剪枝模式能有效缓解早期终止导致的近视问题。该成果为复杂流行病学模型的快速校准提供了新范式,对提升突发公共卫生事件响应能力具有重要意义。
在新冠大流行期间,智能体模型(Agent-Based Models, ABM)因其能够精细模拟个体间交互和多尺度传播动态而备受青睐。然而这类"自下而上"的建模方法存在一个致命短板——随着参数规模膨胀至180余个,传统校准过程往往需要消耗数天计算时间和50GB内存,这在疫情快速演变或资源受限地区成为应用瓶颈。以HPVsim模型为例,这个用于模拟人乳头瘤病毒传播的新型ABM虽然能评估疫苗接种和宫颈癌筛查策略,但其校准效率问题严重制约了在WHO消除宫颈癌战略中的决策支持能力。
来自国际研究团队的研究人员在《Journal of Theoretical Biology》发表的重要研究中,创造性地将机器学习领域的剪枝技术引入ABM校准体系。研究团队设计了三阶段实验:首先通过六种时间偏态分布的合成数据集(从极端后重到极端前重)系统评估六种剪枝算法;随后用尼日利亚真实HPV数据验证最优算法;最终开发自适应剪枝模式来平衡速度与精度。关键技术包括:1)创新性提出累积拟合优度(cGOF)作为中间评估指标,实现逐年动态剪枝;2)构建包含完整剪枝、泄漏剪枝和自适应剪枝的三模式框架;3)采用Optuna平台的树结构Parzen估计器(TPE)采样器,确保与现有ABM校准流程兼容。
研究结果部分,时间偏态实验揭示算法性能与数据分布存在显著相关性。在70%数据集中在2000年的后重数据集(D1)中,连续减半(SH4)算法表现最佳,其最终损失函数值显著优于无剪枝基准(p=0.0070),校准速度提升超50%。而对于数据均匀分布的数据集(D3),中位数剪枝(Median)与无剪枝效果相当,但SH3/SH4等激进算法则出现显著性能下降(p<0.05)。最具说服力的是,即便在仅含5年间隔的真实尼日利亚数据(2015-2020)测试中,中位数剪枝仍在固定计算预算下取得更好效果,证明该方法对非理想数据的鲁棒性。
自适应剪枝的创新设计展现出独特优势。当应用于平衡数据集时,该模式使超带(Hyperband)剪枝的校准质量提升34%,通过动态调整剪枝概率(基于已处理数据比例)有效避免了过早终止优质参数组合。与固定泄漏率的传统方法相比,自适应剪枝在保持相同提速效果(71.9%原始时间)的同时,无需人工调节超参数,为自动化校准提供了新思路。
讨论部分强调,这是首次系统证明剪枝技术可提升ABM校准效率的研究。该方法的价值不仅体现在HPVsim模型上,其模块化架构(如图3所示)可推广至Starsim框架下的各类时空模拟。作者特别指出,在数据采集周期长(如癌症发展监测)或计算资源受限(如非洲部分地区)的场景中,剪枝技术能使ABM校准时间从数周缩短至数天,极大增强了模型在公共卫生决策中的实用性。未来工作将探索该技术与近似贝叶斯计算(ABC)等替代校准方法的结合,并进一步验证其在多疾病、多区域建模中的普适性。
这项由Fabian Sturman、Ben Swallow等学者完成的研究,为破解复杂流行病学模型"校准难"问题提供了关键技术突破。随着ABM在精准公共卫生中的应用扩展,这种融合机器学习优化思想的校准新范式,或将成为提升全球传染病防控效能的重要基石。论文中展示的代码开源和确定性种子设置等方法,也为研究可重复性树立了良好典范。
生物通微信公众号
知名企业招聘