机器学习算法预测埃塞俄比亚育龄妇女流产风险的应用研究

【字体: 时间:2025年05月24日 来源:Scientific Reports 3.8

编辑推荐:

  本研究针对埃塞俄比亚育龄妇女流产预测的公共卫生难题,首次应用机器学习(ML)算法(如随机森林Random Forest、XGBoost等)分析全国代表性数据,发现年轻年龄(+0.060 SHAP值)、配偶低龄(+0.050)及18岁前初产(+0.052)为关键预测因子,最优模型AUC达0.97。该成果为高风险人群精准干预提供数据支撑,推动ML在发展中国家生殖健康领域的应用。

  

流产是导致孕产妇死亡和医疗负担的全球性难题,在埃塞俄比亚等发展中国家尤为严峻。尽管传统统计方法已识别部分风险因素,但复杂的社会经济变量交互关系亟待更精准的预测工具。埃塞俄比亚沃莱塔索多大学等机构的研究团队首次将机器学习算法引入该国流产预测研究,基于2016年埃塞俄比亚人口健康调查(EDHS)的14,931名15-49岁女性数据,构建了性能优异的预测模型,成果发表于《Scientific Reports》。

研究采用7种机器学习算法(逻辑回归、决策树、随机森林、支持向量机SVM、K近邻、XGBoost和朴素贝叶斯),通过SMOTE技术处理数据类不平衡问题,并运用SHAP(Shapley Additive Explanations)值解析特征贡献度。关键步骤包括:80/20数据集划分、十折交叉验证和网格搜索超参数优化。

研究结果显示:

  1. 模型性能:随机森林表现最优(准确率0.91,AUC 0.97),XGBoost次之(准确率0.87,AUC 0.94)。
  2. 关键预测因子:SHAP分析揭示年轻女性年龄(15-19岁)贡献度最高(+0.060),其次为配偶年龄15-30岁(+0.050)和18岁前初产(+0.052)。其他显著因素包括低教育水平、农村居住和贫困状态。
  3. 人群特征:22%参与者为15-19岁青少年,66%居住农村,45%未接受正规教育,38%处于最低社会经济阶层。流产发生率为7.96%,经SMOTE平衡后调整为50%。

讨论指出,该研究首次证实机器学习在埃塞俄比亚流产预测中的优越性,尤其随机森林算法能有效捕捉非线性关系。年轻女性的高风险可能与医疗资源获取不足、生殖健康知识匮乏及社会支持有限相关。研究局限性包括无法区分自然流产与人工流产,且预测因子缺乏回归系数量化。

这项成果为制定针对青少年女性的精准干预政策(如加强性教育、改善医疗可及性)提供了科学依据,同时展示了机器学习在公共卫生领域的转化潜力。未来需通过多中心数据验证模型泛化能力,并探索其在其他发展中国家的适用性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号