基于集成机器学习算法的埃塞俄比亚儿童不完全免疫预测模型构建与影响因素分析

《Scientific Reports》:Design a model to predict incomplete immunization among Ethiopian children using ensemble machine learning algorithms

【字体: 时间:2025年12月13日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对埃塞俄比亚5岁以下儿童免疫接种率低的公共卫生挑战,开发了基于集成机器学习算法的预测模型。研究人员整合2016年EDHS和2019年EMDHS数据(n=16,394),采用Bagging、Boosting、Voting和Stacking等集成学习方法,构建了不完全免疫预测模型。最佳模型Bagging Meta-Estimator+XGBoost的预测准确率达95.94%,精准度97.07%,召回率94.81%,F1分数95.89%。研究发现婚姻状况、居住地区和母亲年龄是影响免疫完成率的关键因素,为制定针对性干预措施提供了科学依据。

  
在埃塞俄比亚,每夭有大量5岁以下儿童因可预防的疾病死亡,免疫接种作为最具成本效益的公共卫生干预措施之一,其完整覆盖率直接关系到儿童生存率。尽管埃塞俄比亚自1980年启动扩大免疫规划(EPI),但2019年数据显示全国完全免疫覆盖率仅达43%,意味着超过一半的儿童未能获得所有推荐疫苗的保护。这种状况使得识别不完全免疫的影响因素并精准预测高风险人群成为当务之急。
传统统计方法在分析复杂因素交互作用时存在局限,而机器学习技术为这一挑战提供了新的解决思路。本研究旨在通过集成机器学习算法,构建埃塞俄比亚儿童不完全免疫预测模型,并识别关键影响因素,为制定针对性干预策略提供数据支持。相关研究成果已发表于《Scientific Reports》。
研究团队采用的关键技术方法包括:从埃塞俄比亚人口健康调查(EDHS)获取2016年和2019年共16,394名0-59个月儿童的数据;使用SMOTE-Tomek联合采样和类别权重处理数据不平衡问题;应用Bagging(Bagging meta-estimator、随机森林)、Boosting(梯度提升、XGBoost、LightGBM、AdaBoost、CatBoost)、Voting(多种组合)和Stacking(基模型为XGBoost、CatBoost、随机森林、KNN、ANN、SVM,元模型为逻辑回归)四类集成学习算法;通过准确率、精确率、召回率、F1分数、混淆矩阵和AUC-ROC曲线等指标评估模型性能。

年龄分布研究

通过探索性数据分析发现,不完全免疫在所有年龄组中均占主导地位,且随儿童年龄增长,不完全免疫的可能性增加,4岁年龄组的不完全免疫率最高。这一趋势表明需要针对年长儿童加强免疫追踪服务。

免疫覆盖状况

研究数据显示,不完全免疫状态需要比完全免疫状态更多关注和干预措施。原始数据中12,483例观察被归类为不完全免疫,而完全免疫仅3,911例,凸显了问题的严重性。

类别不平衡处理

研究采用SMOTE-Tomek联合采样技术处理数据不平衡问题,处理后训练数据中多数类样本为6,583个,少数类样本为6,532个,有效改善了模型性能。

模型评估结果

在测试集上,Bagging Meta-Estimator+XGBoost投票集成模型表现最佳,准确率达到95.94%,精确率97.07%,召回率94.81%,F1分数95.89%。五折交叉验证得分为95.75%,表明模型具有良好可靠性。

混淆矩阵分析

Bagging ME+XGBoost模型在3,279个测试样本中,正确预测了1,594个不完全免疫案例(真阳性)和1,552个完全免疫案例(真阴性),错误分类48个假阳性和85个假阴性。

AUC-ROC曲线

该模型的AUC-ROC值为96%,表明模型在区分不完全免疫和完全免疫方面具有优秀的判别能力。

影响因素分析

通过特征重要性分析发现,婚姻状况(9.01%)、居住地区(8.64%)和母亲年龄(8.58%)是预测不完全免疫的最重要因素。其他显著因素包括母亲职业、媒体曝光度、财富指数等。
研究结论表明,集成机器学习算法在预测埃塞俄比亚儿童不完全免疫方面表现出色,其中Bagging Meta-Estimator与XGBoost的组合模型效果最佳。该模型不仅提供了高精度的预测工具,还识别出影响免疫完成率的关键社会人口学因素。
讨论部分指出,与先前研究相比,本研究在多个方面实现创新:使用更大样本量(16,394 vs 通常<10,000),涵盖更广年龄范围(0-59个月 vs 12-35个月),采用更先进的数据平衡技术(SMOTE+Tomek Link+类别权重),以及应用更复杂的集成学习框架。模型性能显著优于以往研究(95.94% vs 79.01%),为公共卫生决策提供了更可靠的依据。
该研究的实际意义在于能够帮助政策制定者精准识别高风险人群,特别是单亲家庭、农村地区和特定年龄母亲的孩子,从而优化资源配置,提高干预措施的有效性。未来研究方向可包括纳入更细粒度数据、探索深度学习与可解释人工智能(XAI)结合、进行跨国比较研究等,以进一步提升模型的预测能力和实用性。
尽管存在数据不平衡、模型复杂性和调查数据潜在偏倚等局限性,但本研究为改善埃塞俄比亚儿童免疫覆盖率提供了有力的技术支持和决策参考,对实现可持续发展目标中的儿童健康指标具有重要推动作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号