基于随机森林的流行病学模型集成方法在流感住院预测中的创新应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Epilepsy & Behavior》：Random Forest of epidemiological models for Influenza forecasting

【字体：大中小】 时间：2025年10月22日 来源：Epilepsy & Behavior 2.3

编辑推荐：

　　本研究针对流感住院预测的准确性挑战，提出了一种结合机制模型与机器学习的创新方法。研究人员通过SIkJα模型生成多组预测轨迹，利用随机森林算法学习最优组合策略，在FluSight挑战赛中实现了超越传统方法的预测性能。该研究为公共卫生决策提供了自动化、高精度的预测工具，显著提升了流感季医疗资源规划的可靠性。

流感病毒每年在全球造成数十万人住院，对医疗系统形成巨大压力。准确预测流感住院趋势成为公共卫生领域的重要挑战，传统预测方法存在机制模型假设局限与机器学习模型过拟合的双重困境。美国疾控中心（CDC）自2013年起组织FluSight流感预测挑战赛，汇集全球团队开展每周住院人数的点预测和概率预测，但现有模型在准确性和稳定性方面仍有提升空间。

南加州大学研究团队创新性地提出"流行病学模型随机森林"框架，将机制模型的领域知识与机器学习的数据驱动优势相结合。该研究通过改变SIkJα模型的超参数生成54种预测变体，利用随机森林算法学习不同疫情阶段下各预测器的历史表现规律，最终生成超越输入模型范围的优化预测。这种自动化方法在2021-2024年三个流感季的实战检验中表现突出，特别是在2021-22赛季回顾性分析中，其平均绝对误差（MAE）和加权区间得分（WIS）均优于所有参赛模型。

研究团队采用的关键技术方法包括：基于SIkJα（Susceptible-Infected-k-J-alpha）机制的流行病学建模、超参数空间搜索生成预测器变体、随机森林集成学习算法，以及使用FluSurv-NET和CPIHC等真实世界住院监测数据进行模型训练与验证。特别值得注意的是，该方法全程自动化运行，无需人工干预或地区特异性调参。

4.1 数据来源

研究整合多源监测数据，包括FluSurv-NET网络14州2009-2024年实验室确诊流感住院数据、ILINet门诊流感样病例监测数据（2010-2024年）以及CPIHC新冠患者影响和医院容量数据集。通过人口标准化处理实现州级和国家级数据泛化，确保模型输入的可靠性。

4.2 基线模型对比

除了与FluSight参赛模型对比外，研究设置了两种基线模型：最小二乘提升树（LSBoosted Trees）和简单均值模型。结果表明随机森林集成在点预测和概率预测方面均显著优于基线方法，特别是在不确定性量化方面表现出色。

4.3 评估指标体系

采用三重评估标准：平均绝对误差（MAE）衡量点预测精度，加权区间得分（WIS）评估概率预测质量，覆盖度（Coverage）检验置信区间可靠性。随机森林模型在三个指标上均保持领先优势。

4.4 2021-22赛季实战部署

在真实比赛环境中，随机森林版本（SGroup-RandomForest）始终保持稳定表现，即使当基础SIkJα模型在2022年4月出现明显预测偏差时，集成模型仍能通过历史学习机制自动校正。回顾性优化版本（RF-SIkJalpha）更是在整个赛季评估中夺得MAE和WIS双料冠军。

4.5 2022-23赛季技术优化

针对赛季初预测低估问题，团队发现并修复了初始免疫假设（M参数）的建模错误，引入季节起始时间重置机制。这一改进使模型在疫情快速上升阶段的表现得到显著提升，最终排名进入前33%。

4.6 2023-24赛季成熟应用

完整应用最终版模型的赛季表现稳定，虽在疫情缓慢上升期存在轻微滞后，但整体预测精度与官方集成模型相当，再次验证方法的可靠性。

研究通过决策树特征重要性分析揭示了关键超参数的敏感度规律。结果显示住院感染比μ和指数权重α对预测结果影响最大，而滞后参数λ相对次要。这一发现为未来模型优化提供了明确方向。

该研究开创了机制模型与机器学习融合的新范式，通过随机森林集成有效克服了单一模型的局限性。全自动化运行特性使其具备大规模推广应用潜力，为流感及其他传染病预测提供了可扩展的技术框架。随着监测数据的持续积累和算法技术的不断进步，这种"领域知识+数据驱动"的双轨策略有望在精准公共卫生领域发挥更大价值。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号