用于预测引产后剖宫产的可解释机器学习模型:基于真实世界数据的发展与外部验证
《PLOS Digital Health》:Explainable machine learning model for predicting cesarean section following induction of labor: Development and external validation using real-world data
【字体:
大
中
小
】
时间:2025年11月21日
来源:PLOS Digital Health 7.7
编辑推荐:
基于澳大利亚人群数据的机器学习模型预测分娩诱导后剖宫产概率,采用XGBoost算法结合SHAP可解释性分析,验证模型在时间和空间上的泛化性,并开发交互式临床决策工具。
这项研究围绕一个重要的临床议题展开,即在诱导分娩(Induction of Labor, IOL)后预测剖宫产(Cesarean Section, CS)的发生概率。随着越来越多的孕妇选择进行诱导分娩,如何在决策过程中更准确地评估剖宫产的风险,成为医疗实践中亟需解决的问题。研究团队利用澳大利亚两个州的行政数据集,结合多种机器学习算法,开发并验证了一个可解释的预测模型,旨在为临床医生和孕妇提供更加个性化的决策支持工具。
研究采用的是大规模的、基于人群的行政数据,涵盖了新南威尔士州(NSW)和昆士兰州(QLD)在2016年至2019年期间的所有分娩记录。此外,研究还通过2020年NSW的分娩数据进行时间验证,并通过2016年至2018年维多利亚州(VIC)的数据进行地理外部验证。这些数据集不仅规模庞大,而且覆盖了多种临床场景,有助于提高模型的代表性和泛化能力。研究对象包括所有单胎、头位、足月、活产的孕妇,且这些孕妇在尝试诱导分娩之前没有剖宫产史。这种严格筛选的样本确保了研究结果的可靠性,同时排除了那些可能影响剖宫产风险的既往病史因素。
在模型构建过程中,研究团队选择了七种不同的分类算法,包括逻辑回归、随机森林、梯度提升、LightGBM、XGBoost、CatBoost和AdaBoost。这些算法在处理复杂数据集和非线性关系方面各有优势,因此被纳入比较分析。通过嵌套交叉验证流程,研究团队对这些模型进行了超参数调优和特征选择,以确保模型的最优性能。最终,XGBoost模型因其在多个性能指标上的稳健表现,以及其使用较少预测变量和较短训练时间的特点,被选为最佳模型。这不仅提高了模型的可解释性,也增强了其在实际临床环境中的应用潜力。
为了增强模型的透明度和可解释性,研究团队采用了SHAP(SHapley Additive exPlanations)方法,通过蜜蜂图(beeswarm plots)和瀑布图(waterfall plots)直观地展示了各个预测变量对剖宫产概率的贡献。这种可解释性对于临床医生和孕妇来说尤为重要,因为理解模型的决策逻辑有助于建立信任,促进其在医疗实践中的应用。例如,研究发现,从未分娩过的孕妇(nulliparity)、较高的孕前BMI以及较高的产妇年龄是剖宫产风险的主要预测因素,而妊娠期高血压和妊娠期糖尿病则对预测结果的影响较小。这一发现为临床医生提供了有价值的参考,使他们能够在决策过程中优先关注那些具有更高风险的变量。
模型的性能评估采用了多种指标,包括接收者操作特征曲线下面积(AUROC)、精确率-召回率曲线下面积(AUPRC)、校准图(calibration plot)以及布里尔分数(Brier Score)。这些指标共同构成了一个全面的评估体系,不仅衡量了模型的预测准确性,还评估了其在不同社会人口学子群体中的表现。研究结果表明,XGBoost模型在时间验证和地理验证中的表现均较为稳健,其AUROC值分别为0.76和0.75,显示出良好的预测能力。此外,模型的校准性在多个子群体中表现良好,说明其预测结果与实际发生情况之间具有较高的一致性。
除了预测能力,研究还关注了模型在临床实践中的潜在价值。通过决策曲线分析(Decision Curve Analysis, DCA),研究团队评估了模型在不同阈值概率下的临床效用。结果显示,XGBoost模型在合理概率阈值范围内优于“治疗所有”或“不治疗任何”策略,表明该模型能够帮助临床医生识别出那些真正需要干预的高风险孕妇,从而避免不必要的医疗措施。此外,研究还分析了预测剖宫产概率与产妇住院费用和不良妊娠结局之间的关系,发现预测概率较高的孕妇其住院费用和母婴不良事件的发生率显著上升。这一发现为医疗资源的合理分配提供了依据,有助于优化剖宫产的预防和管理策略。
值得注意的是,研究团队在数据处理过程中采取了独特的做法,即对缺失数据进行分类处理,而不是通过数据插补方法进行填补。这种处理方式不仅保留了数据的完整性,还使模型能够识别缺失值可能带来的信息,从而提高预测的准确性。同时,研究团队强调了模型的实用性,指出在实际临床环境中,数据输入可能不完整,因此模型需要具备处理不完全数据的能力。此外,所有模型的开发和验证过程均使用了公开可访问的数据字典,这不仅增强了研究的透明度,也为未来的研究者和临床医生提供了重要的参考资源。
研究团队还开发了一个交互式网页应用,用户可以通过该平台输入个人信息,获取个性化的剖宫产风险预测结果。这一工具的推出,标志着机器学习技术在临床决策支持中的实际应用迈出了重要一步。然而,研究也指出,尽管该模型在技术层面表现出色,但其临床应用仍需进一步的共设计(co-design)和实施研究。例如,需要通过前瞻性研究评估该模型在实际医疗环境中的效果,以及其对孕妇和医疗系统的影响。此外,模型的可解释性虽然得到了提升,但在实际应用中,如何确保其在不同医疗环境和文化背景下的适用性,仍然是一个需要深入探讨的问题。
在研究的局限性方面,研究团队指出,由于数据仅来源于澳大利亚,该模型在其他国家的适用性可能受到医疗体系差异的影响。例如,在美国或资源有限的国家,医疗数据的收集方式和临床实践可能与澳大利亚有所不同,这可能会影响模型的泛化能力。此外,研究中使用的某些变量,如孕妇的出生地,可能掩盖了更细致的社会经济和健康相关特征,这些特征在影响剖宫产风险方面可能具有重要作用。因此,未来的研究可以进一步扩展变量范围,以提高模型的预测精度和适用性。
总体而言,这项研究为诱导分娩后的剖宫产风险预测提供了一个新的视角,通过机器学习方法,不仅提高了预测的准确性,还增强了模型的可解释性和实用性。然而,要实现该模型在临床中的广泛应用,还需要克服一系列挑战,包括算法的透明度、数据的标准化、医疗系统的兼容性以及伦理和监管方面的考量。研究团队呼吁跨学科的合作,涵盖技术、医学、伦理、政策等多个领域,以推动此类模型的进一步发展和临床应用。未来的研究可以聚焦于如何将这些模型更好地整合到电子健康记录(EHR)系统中,以及如何通过用户参与的设计过程,确保模型的使用符合临床需求和孕妇的期望。
此外,研究还强调了个性化医疗的重要性。由于每个家庭对风险的接受程度不同,一个统一的预测模型可能无法满足所有人的需求。因此,模型不仅需要提供准确的预测结果,还需要能够根据个体差异进行调整,从而支持更加灵活和个性化的决策。例如,对于高风险孕妇,模型可以提供更详细的建议,如更频繁的产前检查或更密切的分娩监测,而低风险孕妇则可能不需要额外的干预。这种分层的医疗策略,有助于减少不必要的医疗资源消耗,同时提高孕妇和新生儿的健康水平。
在实际应用中,模型的性能评估结果为医疗决策提供了重要的依据。例如,通过校准图,可以直观地看到预测结果与实际发生情况之间的匹配程度,从而帮助医生判断模型的可靠性。同时,通过决策曲线分析,可以评估模型在不同风险阈值下的临床效用,为医疗资源的合理配置提供指导。研究团队还指出,虽然模型的预测性能较高,但在实际应用中,医生和孕妇仍需结合临床经验和个体偏好进行综合判断,不能完全依赖模型的结果。因此,模型的使用应被视为辅助工具,而非决策的唯一依据。
最后,研究团队认为,该模型的开发和验证为未来的研究和临床实践奠定了基础。通过进一步的共设计和实施研究,可以探索如何将该模型更好地融入现有的医疗体系,提高其在不同人群和医疗环境中的适用性。此外,模型的推广还需要考虑伦理和法律问题,确保其在使用过程中不会对孕妇造成不必要的压力或误解。随着人工智能和机器学习技术的不断发展,类似的研究将在未来发挥越来越重要的作用,为个性化医疗和精准决策提供强有力的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号