机器学习预测撒哈拉以南非洲女性生育延迟:基于PMA调查数据的可解释模型研究
【字体:
大
中
小
】
时间:2025年10月11日
来源:Reproduction and Fertility 3.4
编辑推荐:
本研究针对全球生育率下降背景下撒哈拉以南非洲地区女性生育延迟的预测难题,开发了基于随机森林(RF)的机器学习模型。通过分析五国PMA调查数据,模型准确率达79.2%(AUC=0.94),SHAP分析揭示年龄(36–49岁)、婚姻状况及促排卵治疗为关键预测因子。该研究为资源有限地区开展精准生育干预提供了数据驱动新范式。
随着全球生育率持续下降至更替水平以下,延迟生育力(定义为规律无保护性生活≥12个月未孕)已成为严峻的公共卫生挑战。这一现象在医疗资源匮乏的撒哈拉以南非洲地区尤为突出,当地女性面临生殖健康服务可及性低、社会污名化等多重障碍。传统统计方法难以捕捉影响生育力的复杂非线性关系,而机器学习(ML)技术虽具预测优势,其"黑箱"特性却制约临床转化。为此,来自贡达尔大学的研究团队首次将可解释机器学习(IML)应用于该地区女性生育延迟预测,通过融合多国人口调查数据与SHapley加性解释(SHAP)算法,为个性化生育咨询提供了透明化决策支持。
研究团队采用五项最新绩效监测行动(PMA)横断面调查数据,覆盖尼日利亚、尼日尔等五国2206名15-49岁备孕女性。通过Boruta特征选择算法从26个原始变量中筛选出17个关键预测因子,包括人口学特征(如年龄分组、婚姻状况)、生育史(如产次、避孕使用)及生育干预史(如促排卵治疗、草药使用)。采用网格搜索交叉验证优化九种机器学习模型(如随机森林/RF、XGBoost、LightGBM),并以SHAP进行全局/亚组归因分析。
比较默认与优化超参数性能发现,网格调参使随机森林模型表现最优(准确率79.2%,AUC 0.94),其参数组合为mtry=6(每次分割随机抽样变量数)。LightGBM在树深20时次之,而支持向量机(SVM)需小惩罚项(C=0.01)以提升泛化能力。
未调参时SVM准确率最高(74.81%),但调参后RF实现全面领先(F1分数0.833)。受试者工作特征曲线(ROC)显示RF的AUC达0.948,显著优于决策树(0.601)等简单模型,证明集成学习对生育力复杂模式的捕捉能力。
SHAP蜂群图揭示:36-49岁年龄(SHAP值=0.211)、已婚状态(0.208)及促排卵治疗史(0.173)是前三大风险驱动因子;而15-25岁年龄(-0.156)与既往分娩史(-0.138)则呈保护效应。特征重要性排序还显示草药使用(0.118)、多配偶制(0.098)等非临床因素影响显著。
按年龄、婚姻等分层后,风险模式呈现异质性:15-25岁群体中年轻本身是保护主因(SHAP=-0.246),而该组已婚者风险反而升高(0.229);有促排卵治疗史群体中,治疗本身成为最强风险信号(1.285),凸显医疗干预群体的特殊风险轮廓。
本研究通过可解释机器学习破解了生育延迟预测的"黑箱"难题,证实随机森林模型在非洲人口队列中的卓越性能。SHAP归因不仅验证了年龄、卵巢功能等生物医学因子的核心地位,还揭示了婚姻结构、传统疗法等社会文化因子的修饰作用。研究局限性包括横断面数据无法推断因果关系、缺乏男性伴侣信息及临床生物标志物等。未来需整合纵向临床数据并开发多模态预测工具,以推动机器学习在生殖健康公平性实践中的深度应用。论文发表于《Reproduction and Fertility》2025年第x卷。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号