基于聚类-聚合-池化(CAP)集成算法的流感样疾病预测性能优化研究

【字体: 时间:2025年06月04日 来源:Epidemics 3.0

编辑推荐:

  研究人员针对流感样疾病(ILI)预测中多模型集成存在的冗余性和非可识别性问题,创新性提出聚类-聚合-池化(CAP)集成算法。该研究通过将27个组分模型按预测性能聚类,采用"跟随最优者"策略生成聚类预测,最终通过线性池化构建集成预测。结果表明,CAP算法在保持精度的同时将校准度提升约10%,为公共卫生决策提供了更可靠的预测框架。

  

季节性流感每年在美国造成约42.5万住院病例和3.2万死亡病例,准确预测流感样疾病(ILI)对公共卫生资源配置至关重要。虽然多模型集成能提升预测性能,但现有方法存在组分模型冗余、预测方差失真和权重非可识别性等核心问题。当多个模型产生相似预测时,传统线性池化会导致集成预测过度自信,且权重优化面临数学上的不可识别困境。

为解决这些关键问题,国内研究人员在《Epidemics》发表研究,开发了创新的聚类-聚合-池化(CAP)三层集成框架。该研究基于FluSight项目7个流感季的27个组分模型预测数据,通过性能相关性聚类、最优模型选择和动态权重分配,构建了新型集成预测系统。

研究采用三项关键技术:基于历史log score相关性的动态聚类算法、"跟随最优者"(follow the leader)的聚类内预测聚合方法,以及结合Dirichlet先验的自适应权重优化策略。所有分析基于美国10个HHS区域和国家层面的加权ILI(wILI)监测数据,涵盖2011-2019年共7个流感季的周度预测。

6.1 组分模型性能的季节性特征
分析发现组分模型的log score呈现规律性波动:在流感季初期和末期表现最佳,而在ILI峰值期性能显著下降。所有模型在峰值期的同步性能衰减表明存在预测冗余,这为CAP算法的聚类必要性提供了实证依据。

6.2 基于log score的模型聚类
通过计算组分模型间log score的相关系数矩阵,研究实现了7个特征性聚类。值得注意的是,聚类结果不完全对应模型结构类型(如统计型与机制型),而是反映预测行为的相似性。选择各聚类中历史log score最优的"代表模型",有效保留了90%以上的预测信息量。

6.3 CAP与非CAP集成对比
CAP算法使概率积分变换(PIT)值的累积分布曲线更接近理想对角线,校准误差降低17%(等权重)和8%(自适应权重)。在预测精度方面,CAP在流感季后期(峰值后10周)表现更优(log score提升0.1),但在季初期略有下降。Brier score分析显示CAP对高ILI阈值(>5%)的预测改善显著。

7. 聚类数量与权重熵的动态变化
研究发现聚类数量呈现特征性时序模式:季初期平均23个聚类,峰值期锐减至8个,季末稳定在7个。权重熵在峰值期降至83%,反映算法能识别关键预测模型;而季末熵值回升至92%,提示需要更复杂的后峰值预测策略。

该研究通过理论推导证明,当两个组分模型预测的KL散度趋近零时,传统线性池化的预测方差会人为缩小。CAP算法通过聚类降维有效解决了这一问题,其改进的校准性能对公共卫生预警尤为重要。研究还创新性地提出:权重熵的异常波动可能作为流感峰值的早期预警信号。未来工作可将CAP框架扩展至分位数预测格式,并探索基于模型结构的聚类标准,进一步提升预测性能。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号