机器学习与空间聚类融合预测巴西法定亚马逊地区疟疾发病趋势

【字体: 时间:2025年06月09日 来源:BMC Infectious Diseases 3.4

编辑推荐:

  为解决巴西法定亚马逊地区疟疾防控中传统方法效果有限的问题,Kayo Henrique de Carvalho Monteiro团队开展了结合机器学习(ML)与K-means空间聚类的研究。通过评估LSTM、GRU、SVR、RF、XGBoost和ARIMA六种模型,发现随机森林(RF)在多数区域预测性能最优(如阿克雷州Cluster 02的RMSE低至0.00203)。该研究为精准公共卫生干预提供了数据驱动的新工具,对实现2035年疟疾消除目标具有重要意义。

  

疟疾仍是全球重大公共卫生挑战,尤其在巴西法定亚马逊地区,复杂的环境与社会经济条件导致传统防控措施收效有限。该区域贡献了巴西99.98%的疟疾病例,但病例分布极不均衡,西北部的亚马孙州、罗赖马州等地尤为严重。面对这一困境,如何利用现有监测数据构建精准预测模型,成为打破防控僵局的关键。

为应对这一挑战,巴西伯南布哥大学等机构的研究团队创新性地将机器学习与空间聚类技术结合,开发了一套基于历史病例数据的预测框架。研究人员从巴西卫生部疟疾流行病学监测系统(SIVEP-Malaria)提取2003-2022年间的周度病例数据,通过K-means算法将各州 municipalities(市镇)按发病率的时空特征聚类,再分别用六种模型进行预测。结果显示,随机森林(Random Forest, RF)在多数区域表现最优,如在亚马孙州实现RMSE 0.00570,而空间聚类进一步将部分集群的预测误差降至0.00010。这项发表于《BMC Infectious Diseases》的研究,为资源有限地区开展精准疟疾防控提供了可推广的技术路径。

研究采用三大关键技术:1)基于肘部法则确定K-means最佳聚类数,将9个州划分为3-5个流行病学特征相似的集群;2)利用网格搜索和Optuna框架优化六种模型(LSTM、GRU、SVR、RF、XGBoost、ARIMA)的超参数;3)采用均方根误差(RMSE)和平均绝对误差(MAE)评估模型性能,重点关注RF在阿克雷州Cluster 02等区域的卓越表现(MAE 0.00133)。

主要研究结果

  1. 流行病学聚类分析:通过肘部法则确定各州最优聚类数,如亚马孙州划分为5个集群。地理可视化显示,Jacareacanga(帕拉州)等市镇持续处于高风险状态,验证了长期历史数据的预测价值。
  2. 预测模型比较:RF在8/9个州的综合评估中领先,仅在罗赖马州被支持向量回归(SVR)超越(RMSE 0.00374)。空间聚类显著提升模型灵敏度,如亚马孙州Cluster 01的RF误差降至0.00006。
  3. 异质性捕获:SVR在发病趋势平稳的集群(如阿马帕州Cluster 02)表现突出,说明模型性能与局部传播动力学特征密切相关。

结论与意义
该研究证实,仅需常规监测数据即可构建高性能预测模型。RF与空间聚类的结合,能有效识别如土著领地和矿区等高危区域的传播异质性,其成果已直接支持巴西《消除疟疾国家计划》的差异化防控策略。相比依赖气象等外部数据的传统模型,这套框架更适用于基础设施薄弱地区,为全球疟疾消除行动提供了可复制的技术范本。值得注意的是,在托坎廷斯州等零病例集群中,模型无需调整即可自动适应,展现出强大的实际应用潜力。未来可通过整合实时数据流,进一步强化早期预警系统的响应速度。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号