
-
生物通官微
陪你抓住生命科技
跳动的脉搏
机器学习与SHAP解释模型在索马里育龄妇女生育偏好预测中的应用研究
【字体: 大 中 小 】 时间:2025年07月21日 来源:Scientific Reports 3.8
编辑推荐:
本研究针对索马里高生育率背景下生育偏好预测的难题,创新性地应用机器学习(ML)算法和SHAP解释模型,通过分析2020年索马里人口健康调查(SDHS)中8,951名15-49岁女性的数据,发现年龄、区域、近期生育次数等9个关键预测因子。随机森林(RF)模型表现最优(准确率81%,AUROC 0.89),首次揭示医疗可及性距离对生育决策的显著影响,为资源匮乏地区的精准生殖健康干预提供了数据驱动的新范式。
在撒哈拉以南非洲地区,索马里持续面临高生育率与有限医疗资源的双重挑战,其总和生育率高达6.9,但现代避孕措施使用率不足15%。传统统计方法难以捕捉影响生育决策的复杂社会人口学因素交互作用,特别是医疗可及性等地理障碍的量化评估存在显著空白。这一现状严重制约了针对性家庭规划政策的制定,亟需创新分析方法来破解生育偏好预测的"黑箱"难题。
尼日利亚联邦大学Birnin Kebbi分校人口与社会统计系的Jamilu Sani D团队联合索马里卫生部门研究人员,在《Scientific Reports》发表了一项突破性研究。该研究首次将7种机器学习算法与SHAP解释技术相结合,利用全国代表性调查数据构建预测模型,发现45-49岁女性想停止生育的几率是15-19岁组的5.29倍(AOR=5.29),而医疗设施距离每增加一个等级会使继续生育意愿降低31%。研究创新性地证实,在控制教育、财富等传统因素后,地理可及性仍是影响生育决策的独立预测因子。
研究采用多阶段技术路线:首先对SDHS调查的8,951例样本进行SMOTE过采样处理解决类别不平衡;随后通过递归特征消除(RFE)和Cramer's V统计量筛选出11个核心预测变量;最终采用分层5折交叉验证比较7种算法性能。关键创新在于引入SHAP值量化各特征贡献度,突破传统逻辑回归的线性假设局限。
【Sociodemographic characteristics】
样本特征显示83.16%女性未接受正规教育,62.47%认为就医距离是主要障碍。 nomadic人群占31.91%,凸显研究对象的特殊人口构成。
【Predictors of fertility preferences】
逻辑回归基线模型显示:45-49岁组(AOR=5.29)、已婚女性(AOR=5.60)、生育≥7孩者(AOR=3.17)更倾向停止生育。值得注意的是,认为就医距离"非主要问题"的群体继续生育意愿显著更高(AOR=1.69)。
【Model performance evaluation】
随机森林(RF)在各项指标全面领先:准确率81%(vs逻辑回归68%),F1-score 82%,AUROC 0.89。其真阳性识别数达1,251例,假阴性仅245例,证明对高危人群筛查的可靠性。
【Features importance analysis using SHAP】
SHAP蜂群图揭示:年龄贡献度最高(均值|SHAP|=0.38),其次为区域(0.21)和近5年生育次数(0.18)。就医距离呈现双向影响,对农村居民呈负向作用(SHAP<-0.5),而对城市高教育群体则显示正向关联。
研究结论突破性地构建了索马里生育偏好预测的三维框架:①生命历程维度(年龄、生育史);②社会资本维度(教育、财富);③空间可达维度(医疗距离)。特别是发现医疗可及性通过双重机制影响决策——既作为服务获取的实际障碍,又通过改变儿童存活预期间接调节生育意愿。该方法学框架为其他高生育率地区提供了可复制的分析范式,其SHAP解释结果可直接指导资源分配:如对30-34岁、parity≥5的nomadic女性应优先部署移动诊所。
研究局限在于横断面设计难以建立因果关系,且未纳入文化信仰等定性因素。未来研究可结合GIS空间分析技术,将模型预测结果与实际服务网点布局进行空间匹配验证。该成果标志着人工智能技术在非洲人口健康研究中的创新应用,为实现SDG3.7"全民生殖健康覆盖"目标提供了精准决策工具。
生物通微信公众号
知名企业招聘