基于无偏机器学习的新生儿可预防死亡风险精准识别与健康公平性研究

《Population Health Metrics》:Reducing inequalities using an unbiased machine learning approach to identify births with the highest risk of preventable neonatal deaths

【字体: 时间:2025年10月28日 来源:Population Health Metrics 2.5

编辑推荐:

  本研究针对新生儿死亡率存在显著群体差异的问题,开发了一种基于XGBoost算法的无偏机器学习模型,通过整合巴西卫生部2015-2017年8,797,968例出生记录,成功将85%的可预防新生儿死亡集中在风险评分前5%的出生群体中。该模型在保持预测准确性的同时,实现了对不同弱势群体(包括种族、教育、婚姻状况等)的公平识别,为公共卫生资源精准配置提供了重要技术支撑。

  
在全球新生儿死亡率持续下降的背景下,隐藏着一个令人担忧的现实:某些弱势群体的死亡率依然远高于国家平均水平。这些"被落下"的群体面临着可预防死亡的不平等负担,而传统公共卫生干预方法往往难以精准识别真正需要帮助的个体。巴西作为拥有全球最大公共医疗系统(SUS)的国家,其医疗团队需要负责2000-3500名居民的健康管理,如何在有限资源下有效识别高风险新生儿成为重大挑战。
传统方法通常基于人口学特征进行群体层面风险评估,但这种方法忽视了群体内部的异质性。近年研究发现,群体内部的风险差异甚至大于群体间差异,这促使研究人员寻求更精确的个体化风险评估方法。Ramos等人发表在《Population Health Metrics》的研究,正是针对这一需求展开的创新性探索。
研究团队通过链接巴西卫生部三个核心行政数据库(SINASC出生登记系统、SIM死亡登记系统和CNES医疗设施登记系统),构建了包含8,797,968例出生记录的超大规模数据集。研究特别关注2015-2017年期间的59,615例新生儿死亡,其中42,290例被归类为可预防死亡——这些正是公共卫生干预可能发挥最大效用的关键目标。
研究方法的核心在于比较六种机器学习算法(逻辑回归、LASSO、弹性网络、随机森林、XGBoost和神经网络)在识别高风险新生儿方面的表现。与传统使用准确率、AUC等指标不同,研究团队创新性地采用了政策导向的评估标准:考察模型在给定资源约束下(如前5%或10%的高风险群体)能够捕获的可预防死亡比例。这种方法更贴近实际公共卫生决策场景,使评估结果具有直接的政策指导意义。
技术方法上,研究采用确定性链接方法整合多源数据库,通过特征工程处理包括分娩地点、Apgar评分、出生体重、孕周等25个关键变量,并使用Amelia包进行缺失值插补处理。模型训练采用80%-20%的数据分割策略,并进行了时间外样本验证以确保泛化能力。
模型性能比较
XGBoost算法表现出卓越的预测性能,在测试集上,仅针对风险评分前5%的新生儿,模型就能捕获85%以上的可预防死亡事件。这一表现显著优于其他对比算法,体现了梯度提升树模型在处理复杂医疗数据方面的优势。时间外样本验证进一步证实了模型的稳健性,基于时间分割的测试结果甚至略优于随机分割,表明模型具有良好的时效适应性。
特征重要性分析
通过SHAP(Shapley Additive Explanations)值分析,研究揭示了影响预测结果的关键因素。出生体重、产前检查次数、孕周、既往活产数和Apgar评分成为最重要的预测变量。这一发现不仅验证了临床经验的科学性,还为优先数据收集提供了依据,有助于在资源有限地区优化数据采集策略。
算法偏差评估
针对机器学习应用中常见的算法偏差问题,研究进行了深入分析。结果显示,模型在非白人母亲、低教育水平母亲、未成年母亲和单身母亲四个弱势群体中,均保持了预测的公平性。虽然模型会选择更高比例的弱势群体个体作为高风险对象(如针对前5%风险群体,非白人母亲占比71%,而其在总样本中占比64%),但这种"过度选择"恰恰保证了模型能够捕获与测试集中比例相当的实际可预防死亡事件,实现了真正的结果公平。
实际应用示例
研究还提供了具体出生档案的风险评估示例,直观展示高低风险新生儿的特征差异。高风险新生儿通常伴有极低出生体重和Apgar评分异常等临床指标,而中低风险群体则更多由社会人口学因素区分。这种分层有助于医疗团队制定差异化的干预策略。
该研究的创新价值体现在多个维度:方法学上,提出了更适合公共卫生决策的场景化评估指标;技术上,证明了基于常规行政数据构建高精度预测模型的可行性;实践上,开发了可集成到现有医疗系统的风险评估工具(如研究者演示的Shiny应用程序);伦理上,确保了算法公平性,避免加剧健康不平等。
研究团队强调,该模型并非旨在替代医疗专业人员的临床判断,而是作为辅助决策工具,特别是在基层医疗人员负担过重的情况下,提供数据驱动的风险预警。该方法具有良好的可移植性,可适应其他中低收入国家的数据环境,甚至可结合人口健康调查(DHS)等替代数据源在民事登记系统不完善地区应用。
这项研究为实现联合国可持续发展目标(SDGs)中的儿童健康指标提供了切实可行的技术路径,展示了数据科学在推动健康公平方面的巨大潜力。通过将先进的机器学习方法与公共卫生需求巧妙结合,研究者为减少可预防新生儿死亡开辟了新思路,也为全球范围内的健康干预精准化提供了重要参考。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号