应用机器学习算法预测东非孕妇产前保健延迟启动:关键预测因子与政策启示

【字体: 时间:2025年10月06日 来源:Frontiers in Global Women's Health 2.4

编辑推荐:

  本刊推荐:本研究基于十国人口健康调查(DHS)大数据,运用递归特征消除(RFE)和合成少数类过采样技术(SMOTE)处理数据后,采用七种机器学习算法构建预测模型。LightGBM分类器以准确率75%、AUC值81%的优异性能脱颖而出,首次通过关联规则挖掘(Apriori算法)揭示家庭分娩、低收入、多子女等关键预测因子,为降低孕产妇死亡率提供精准干预靶点。

  
研究背景
撒哈拉以南非洲地区承载着全球最高的孕产妇死亡率,其中产前保健(Antenatal Care, ANC)启动延迟是导致妊娠相关并发症死亡的重要基础因素。孕妇及胎儿的整体健康水平高度依赖于ANC服务的及时启动。世界卫生组织(WHO)报告显示,发展中国家与发达国家的孕产妇死亡率存在惊人差异——每10万活产中分别为430例与13例。全球约26万孕产妇死亡案例中92%本可预防,其中18万例集中在低收入国家,女性终身风险高达1/49。
延迟ANC引发的健康危害包括早产、低出生体重(占新生儿死亡75%)、贫血及母婴艾滋病病毒(HIV)垂直传播风险增加。WHO推荐妊娠期至少8次ANC接触,首次检查需在孕12周内完成,该标准可使孕产妇死亡率降低20%。然而现实情况严峻:非洲19国研究显示仅37.15%孕妇在孕14周前启动ANC,埃塞俄比亚64%孕妇存在延迟现象,各国早期ANC启动率存在显著地域差异(坦桑尼亚76% vs 新西兰17%)。
研究方法
研究团队提取2016-2023年间东非十国(布隆迪、埃塞俄比亚、肯尼亚、津巴布韦、马达加斯加、马拉维、莫桑比克、卢旺达、坦桑尼亚和乌干达)的人口健康调查(Demographic Health Surveys, DHS)数据,经加权处理获得77,865名孕妇样本。采用两阶段分层整群抽样设计,首先按规模比例随机选择枚举区域(EAs),随后系统随机抽样选定家庭中15-49岁女性。
延迟ANC启动定义为:首次产检时间>妊娠16周或4个月。预测变量涵盖三大维度:
  1. 1.
    社会人口特征:年龄、居住地类型、教育水平、家庭成员数、户主性别、婚姻状况等
  2. 2.
    社会经济因素:手机拥有率、识字率、职业状况、互联网使用、财富指数
  3. 3.
    健康服务利用:避孕措施使用、生育史、分娩地点、剖宫产(CS)情况
数据处理采用STATA 17与Python 3.9平台,运用pandas、scikit-learn等工具包进行数据清洗、特征编码(独热编码、序数编码)和标准化处理。针对27,507例"延迟"与50,587例"未延迟"的类别失衡问题,采用合成少数类过采样技术(SMOTE)将两类样本平衡至各40,451例。
模型构建选择七种监督学习算法:AdaBoost、决策树(DT)、梯度提升(GB)、K近邻(KNN)、轻量梯度提升机(LightGBM)、随机森林(RF)和极限梯度提升(XGBoost)。通过十折交叉验证比较性能后,最终选定LightGBM在平衡数据上训练预测模型。特征选择采用递归特征消除(RFE)与SHAP值分析,另通过Apriori算法进行关联规则挖掘。
研究结果
样本社会特征显示:25-29岁孕妇占比24.9%(19,412/77,865),77%居住于农村地区,82.2%处于已婚状态,51%仅接受初等教育。社会经济方面:87.4%无互联网接入,43.6%拥有手机,23.1%属于最贫困阶层,69.8%有职业收入。健康服务利用特征:49%使用避孕措施,78.8%在医疗机构分娩,91.8%非剖宫产分娩,60.4%生育1-3个子女。
整体ANC启动情况令人担忧:仅35%(27,261例)孕妇实现早期启动,而延迟率高达65%(50,603例)。LightGBM模型表现最优:准确率75%,AUC值81%,F1分数78%,召回率79%,精确率77%。SHAP值分析确定关键预测因子包括:分娩地点(家庭分娩权重0.14)、财富指数(0.14)、家庭成员数、职业状态等。
关联规则挖掘发现9条强规则:
规则1:家庭分娩+无互联网接入→延迟概率71.8%(提升度2.8)
规则2:家庭分娩+无互联网+非剖宫产→延迟概率71.8%(提升度2.5)
规则3:家庭成员>7人+非剖宫产+无互联网→延迟概率70%(提升度2.03)
规则7:家庭成员>7人→延迟概率69%(提升度2.02)
规则8:无职业状态→延迟概率69%(提升度2.01)
结论与建议
研究证实东非地区ANC延迟启动率达65%,主要预测因子包括:家庭分娩、低收入、多子女家庭、失业状态、年轻孕龄、未使用避孕措施、低教育水平及农村居住。建议采取针对性措施:加强计划生育服务推广,实施精准健康素养教育,开发青年友好型医疗项目,扩展移动诊所覆盖范围,提升专业助产服务可及性,从而有效提高ANC及时启动率。
本研究存在DHS二手数据固有局限(缺乏行为变量、无法推断因果关系),但创新性地结合监督学习与无监督学习算法,增强了模型预测的准确性与政策指导价值,为降低东非地区孕产妇死亡率提供了基于机器学习证据的干预路径。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号