机器学习算法助力探秘东非育龄女性短生育间隔:精准预测与关键因素解析

【字体: 时间:2025年05月10日 来源:BMC Pregnancy and Childbirth 2.8

编辑推荐:

  在东非,育龄女性短生育间隔严重威胁母婴健康。研究人员开展 “探索机器学习算法预测东非育龄女性短生育间隔及其决定因素” 的研究。结果显示随机森林模型表现最佳,还明确了关键影响因素,这为改善母婴健康提供了重要依据。

  在东非这片广袤的土地上,育龄女性的生育健康状况牵动着无数人的心。生育间隔,这个看似普通的概念,却蕴含着关乎母婴健康的重大秘密。世界卫生组织(WHO)将短生育间隔定义为两次连续活产之间间隔小于 33 个月。在东非地区,这一问题尤为突出,它像一颗隐藏的定时炸弹,给母婴健康带来诸多风险。例如,会导致孕妇叶酸水平不足、孩子母乳喂养不充分、子宫修复不彻底,还可能引发子宫内膜血管异常重塑等一系列健康问题 。同时,短生育间隔带来的高生育率,不仅加重了女性的资源负担,还限制了女性参与经济活动,阻碍了地区经济发展。据统计,全球每年超 250 万围产期死亡事件中,95% 发生在发展中国家,而东非国家短生育间隔比例极高,如乌干达达 13.4%、埃塞俄比亚达 58.5%、坦桑尼亚达 48.4%,这无疑是造成当地母婴死亡率居高不下的重要原因之一。若能合理调整生育间隔,每年预计可避免约 160 万 5 岁以下儿童死亡。
此前,传统研究虽已发现年龄、女性医疗保健决策自主权、家庭财富状况等因素与短生育间隔相关,但传统统计方法在处理高维数据、捕捉复杂非线性关系时存在局限,难以全面深入剖析这一问题。为了打破这一困境,来自埃塞俄比亚贡德尔大学医学院公共卫生学院健康信息学系(Department of Health informatics, Institute of Public Health, College of Medicine and Health Sciences, University of Gondar)的 Tirualem Zeleke Yehuala 等人开展了一项极具意义的研究,相关成果发表在《BMC Pregnancy and Childbirth》上。

研究人员巧妙运用机器学习(ML)算法,试图精准预测东非育龄女性的短生育间隔,并找出背后的关键决定因素。他们选取了 11 个东非国家(布隆迪、埃塞俄比亚、科摩罗、乌干达、坦桑尼亚、莫桑比克、马达加斯加、津巴布韦、肯尼亚、赞比亚和马拉维 )的人口与健康调查(Demographic and Health Surveys,DHS)数据作为研究样本。在数据处理阶段,研究人员运用了多种关键技术方法。首先是数据预处理,针对数据中 3.6% 的缺失值,采用众数插补法处理分类变量的缺失问题;运用数据归一化将特征值映射到 0 - 1 区间,并使用独热编码将分类数据转化为数值形式;对连续数据如产妇年龄,采用等宽分箱法进行离散化处理;将 11 个国家不同来源的数据整合为一个综合数据集。其次,利用递归特征消除(Recursive Feature Elimination,RFE)方法进行特征选择,筛选出对预测生育间隔有重要影响的变量。最后,选用逻辑回归(Logistic Regression,LR)、决策树(Decision Tree,DT)、随机森林(Random Forest,RF)和朴素贝叶斯(Naive Bayes,NB)这 4 种机器学习模型进行训练和评估,通过网格搜索等技术调整模型超参数,利用准确率、精确率、召回率、F1 值和受试者工作特征曲线下面积(AUC - ROC)等指标衡量模型性能。

在研究结果方面,参与研究的 100,246 名育龄女性呈现出多样的社会人口学特征。其中,约 73.0% 为农村居民,43.7% 存在短生育间隔。肯尼亚和马拉维的女性分别占比约 18.7% 和 15.1% 。不同年龄、教育程度、财富状况等因素下,短生育间隔的比例有所差异。例如,15 - 24 岁女性中 57.0% 有短生育间隔,无正规教育的女性中 45.9% 存在短生育间隔,最贫困家庭的女性近半数(46.7%)有短生育间隔。

通过递归特征消除法,研究人员确定了年龄、产次、国家、财富状况、产妇教育程度等多个关键影响因素。特征重要性分析表明,较长条形的特征与短生育间隔的高预测概率相关,较短条形的则相反。

在比较不同监督机器学习算法时,随机森林模型脱颖而出,展现出最佳性能。其准确率达 79.4%,精确率为 79.0%,召回率 91.0%,F1 值 84.0%,AUC 为 83.8% 。决策树模型次之,逻辑回归模型表现相对较弱。研究人员还运用 SHAP 值(SHapley Additive exPlanations)对随机森林模型进行解读,发现如津巴布韦的产妇、产次为 2 - 3 次、年龄在 25 - 34 岁等多种特征组合,在特定预测中与短生育间隔的高可能性相关。

综合研究结论与讨论,随机森林算法在预测东非育龄女性短生育间隔方面表现卓越。年龄、产次、国家、财富状况、未满足的计划生育需求、到医疗机构的距离、居住地和产妇教育程度等都是重要的预测特征。这一研究成果意义非凡,为公共卫生领域带来了新的思路和方向。它有助于政策制定者聚焦重点领域,如加强农村地区产妇教育,提高其对生育健康的认知;增加计划生育服务的可及性,帮助女性更好地规划生育;强化医疗基础设施建设,尤其是母婴健康服务,为女性生育决策提供有力支持。此外,将机器学习模型融入公共卫生策略,能够更精准地设计针对性干预措施,长期监测生育间隔趋势,最终推动东非地区母婴健康水平的显著提升。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号