机器学习算法助力预测巴西孕妇低出生体重风险

【字体: 时间:2025年03月20日 来源:BMC Pregnancy and Childbirth 2.8

编辑推荐:

  为预测低出生体重(LBW)风险,研究人员用机器学习算法建模,XGBoost 表现最佳,有助于改善围产期结局。

  在生命的奇妙旅程中,新生儿的诞生总是伴随着希望与喜悦。然而,低出生体重(Low Birth Weight,LBW)这一问题却如同一朵阴霾,笼罩在新生命的上空。LBW 指新生儿体重低于 2500g,它与新生儿发病率和死亡率密切相关,还可能导致儿童及成年后的慢性疾病。近年来,LBW 的患病率呈上升趋势,这让人们越发关注如何有效预测和预防 LBW。
此前,多数关于 LBW 预测的机器学习(Machine Learning,ML)研究在高收入国家开展,其结果难以适用于巴西这样的中低收入国家。而且,现有模型普遍存在缺乏可解释性和未解决类别不平衡的问题。为了突破这些困境,来自巴西圣保罗大学公共卫生学院等机构的研究人员开展了一项极具意义的研究,相关成果发表在《BMC Pregnancy and Childbirth》上。

研究人员利用巴西阿拉拉夸拉队列(Araraquara Cohort)的纵向研究数据,该队列涵盖了 1579 名孕妇。他们选用了随机森林(Random Forest)、极端梯度提升(XGBoost)、Catboost、LightGBM 这四种 ML 算法进行建模。为解决类别不平衡问题,研究人员采用了合成少数过采样技术(Synthetic Minority Over - sampling Technique,SMOTE);同时,运用 Shapley 值评估变量重要性,以增强模型的可解释性。

研究人员首先对孕妇的多种特征进行了详细分析。这些孕妇平均年龄 28.4 岁,身高 162cm,孕前体重指数(BMI)为 24.7kg/m2,孕周 39.3 周。大部分孕妇受教育程度较高,多数为非吸烟者,家庭收入中等水平。在这个队列中,正常出生体重的新生儿占 91.2%,LBW 的新生儿占 8.8%。

在模型性能评估方面,研究人员通过多个指标对模型进行综合评价。结果显示,XGBoost 模型表现最为出色,其受试者工作特征曲线下面积(AUROC)达到 0.941,在区分正常和低出生体重新生儿方面表现卓越。Catboost 模型紧随其后,AUROC 为 0.939,随机森林和 LightGBM 的 AUROC 分别为 0.938 和 0.937。此外,随机森林的总体准确率最高,为 0.94;Catboost 在精确率(0.80)和召回率(0.78)之间达到了最佳平衡,F1 分数为 0.79。

在分析影响 LBW 预测的重要变量时,研究发现,孕周是最重要的预测因素,对 LBW 预测的影响最大。其次是孕妇婚姻状况和孕期缺乏规律体育活动。孕妇种族、产次和产前检查次数等因素也对 LBW 风险有显著影响。吸烟和饮酒等行为因素虽然也是重要预测因素,但相比之下影响稍弱。

这项研究意义重大。研究证实了多种 ML 模型在预测 LBW 方面的有效性,其中 XGBoost 表现最为突出。这为临床实践提供了有力支持,通过这些模型,医护人员能够精准识别 LBW 高风险孕妇,进而实施早期干预措施,如营养补充、增加产前检查次数或提供针对性的生活方式咨询等。这不仅有助于降低 LBW 带来的风险,还能改善新生儿结局,尤其是在 LBW 发生率较高、医疗资源有限的中低收入国家,这些模型的应用可能会带来变革性的影响。

不过,该研究也存在一定局限性。研究队列来自巴西特定地区,其结果的普适性有待进一步验证。而且,虽然模型预测准确性较高,但在临床工作流程中的整合及对围产期护理的潜在影响还需更多研究。此外,ML 模型在实际医疗应用中还面临数据隐私、模型公平性和偏差缓解等挑战。

总的来说,这项研究为 LBW 的预测开辟了新的道路,ML 模型在围产期健康领域展现出巨大潜力。未来研究可以朝着扩大样本范围、优化模型临床应用等方向展开,让这些模型更好地服务于全球母婴健康事业,为新生命的健康成长保驾护航。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号