基于机器学习多源因子解析的全球登革热年度动态预测模型研究

【字体: 时间:2025年06月26日 来源:PLOS Pathogens 5.5

编辑推荐:

  这篇研究通过机器学习(ML)技术构建全球登革热预测模型,综合历史病例、气候、人口、社会经济等9类28项多源特征,利用SHAP(Shapley Additive Explanations)框架揭示特征贡献度。结果显示,历史病例贡献率达73.63%,伊蚊(Aedes)分布、血清型转换和贫血患病率是关键风险因子,超流行区与非超流行区特征贡献模式差异显著(p<0.05)。该模型为区域差异化防控提供科学依据。

  

引言

登革热作为由登革病毒(DENV-1至DENV-4)引发的蚊媒传染病,全球每年约3.9亿人感染,9.6亿例发病。当前缺乏特效抗病毒药物和通用疫苗,非药物干预成为主要防控手段。传统预测模型多局限于短期或局部研究,而年度预测对资源调配至关重要。本研究首次整合历史病例、气候、贫血、航空旅行等九类多源特征,构建全球尺度机器学习预测模型,填补了中长期预测与跨区域规律研究的空白。

方法学创新

研究采用支持向量回归(SVR)、随机森林(RF)等四种机器学习算法,通过四折交叉验证比较基线模型(仅历史病例)与多变量模型性能。缺失数据通过均值填补联合缺失指示符法处理,经敏感性验证优于多重插补法。特征贡献度通过SHAP值量化,并利用广义加性模型(GAM)绘制连续变量的非线性响应曲线。

关键发现

  1. 模型性能突破:多变量随机森林模型表现最优(测试集MSE=0.4220,RMSE=0.1781),较基线模型误差降低15.72%。消融实验证实所有特征类别均能提升模型性能,其中历史病例解释42.09%的变异度。
  2. 风险因子识别
    • 伊蚊存在使预测病例数提升(SHAP中位数>0);
    • 血清型转换(OR=1.68)与儿童贫血患病率(阈值>30%)显著正相关;
    • 气候因子呈非线性效应,如降水量>2000mm时转为负向影响。
  3. 区域异质性:超流行区(如泰国、巴西)历史病例贡献度较非流行区高38.5%,凸显群体免疫的关键作用;美洲与亚洲的贫血特征贡献差异显著(p<0.05)。

讨论与展望

研究揭示了登革热动态受宿主免疫(历史病例)、病毒(血清型)、媒介(伊蚊)三重驱动的复杂机制。未解释的15%变异可能涉及海洋温度指数等未纳入因子。未来需加强血清型监测与贫血干预的协同防控,并开发适配区域流行特征的预测子模型。该成果为全球公共卫生资源的精准部署提供了里程碑式的方法学框架。

(注:全文数据源自WHO登革热数据库及世界银行等公开平台,涵盖104个国家1990-2018年数据,所有结论均基于随机森林模型的SHAP值解析与统计学验证。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号