开发并外部验证一种可解释的机器学习模型,用于早期预测与中风相关的肺炎:一项多中心研究

《International Journal of Medical Informatics》:Development and external validation of an interpretable machine learning model for early prediction of stroke-associated pneumonia: a multicenter study

【字体: 时间:2026年06月12日 来源:International Journal of Medical Informatics 4.1

编辑推荐:

  赵明阳|周倩瑜|张强|王连科|王盼盼|秦颖|陈家军|刘梦婷|万婉燕|孙长青郑州大学公共卫生学院,中国河南省郑州市450001摘要目的利用入院24小时内收集的常规临床数据,开发并外部验证一个可解释的机器学习模型,用于预测7天内的卒中相关肺炎(SAP)。方法这项多中心研究使用了来自河

  
赵明阳|周倩瑜|张强|王连科|王盼盼|秦颖|陈家军|刘梦婷|万婉燕|孙长青
郑州大学公共卫生学院,中国河南省郑州市450001

摘要

目的

利用入院24小时内收集的常规临床数据,开发并外部验证一个可解释的机器学习模型,用于预测7天内的卒中相关肺炎(SAP)。

方法

这项多中心研究使用了来自河南卒中队列的开发队列和来自郑州三家医院的独立外部验证队列。符合条件的患者为影像学确诊的缺血性或出血性卒中成人患者。排除了入院时已有感染或在入院24小时内发展为SAP的患者。我们评估了入院24小时内获得的26个候选预测因子。通过递归特征消除法训练了9种机器学习算法。模型性能基于区分度、校准和临床实用性进行评估。最终模型使用SHapley Additive exPlanations(SHAP)进行解释,并作为在线计算器部署。

结果

开发队列和外部验证队列分别包含1201名和645名患者,7天SAP的发生率分别为20.6%(n=247)和24.8%(n=160)。在九种算法中,随机梯度提升(SGBT)表现出最平衡的整体性能。在内部验证中,SGBT在训练集上的接收者操作特征曲线下面积(AUC)为0.947,在测试集上为0.905。在外部验证中,该模型的AUC为0.906,准确率为0.864,敏感性为0.712,特异性为0.918,阳性预测值(PPV)为0.756,阴性预测值(NPV)为0.899,F1分数为0.733。最终模型保留了10个预测因子:卒中亚型、纤维蛋白原、D-二聚体、C反应蛋白、尿酸、甘油三酯、同型半胱氨酸和临床评分(ADL、GCS、NIHSS)。SHAP分析确定早期神经损伤和炎症负担是SAP预测的主要因素。

结论

一个利用常规入院数据的可解释SGBT模型能够准确预测7天内的SAP,并在外部验证中保持稳健性。附带的在线计算器有助于对住院卒中患者进行个体化风险估计,以支持早期预防决策。

引言

卒中仍然是全球主要的死亡和长期残疾原因[1],[2]。在急性住院期间,结果取决于原发性神经损伤和随后的系统并发症。其中,SAP是一种常见且临床上至关重要的并发症。SAP与死亡率增加、功能恢复较差、住院时间延长和医疗费用增加有关,使其成为急性卒中护理中的持续挑战[3],[4]。
SAP的临床影响与其发病时间密切相关。许多病例发生在卒中后早期,此时呼吸管理、吞咽预防措施和监测策略仍然可以调整[5]。这种时间模式使得使用入院数据进行早期预测成为理想的选择。在常规初次评估中,结构化的医院系统通常会捕获关键的SAP风险因素,包括人口统计学特征、血管合并症、卒中严重程度、意识障碍、吞咽困难和炎症标志物[6],[7],[8]。
尽管存在几种用于卒中后肺炎的临床评分和预测模型,但越来越多地应用机器学习方法来提高预测性能[9],[10]。然而,现有文献在方法学上存在不一致性。在一些研究中,预测因子的确定与预期的预测时间点不匹配。在其他研究中,验证仅限于衍生队列,限制了模型的泛化能力。此外,某些模型依赖于早期评估时无法获得的变量或缺乏可解释性。对于实用的预测模型,仅区分度是不够的;精确的预测时间、外部验证、可解释性和可访问性同样重要[11],[12]。
我们进行了这项多中心研究,使用入院24小时内收集的常规数据开发并外部验证了一个可解释的机器学习模型,用于早期SAP预测。通过将候选预测因子限制在入院早期变量,并提供在线界面进行模型解释,我们旨在提供一个适用于实际卒中护理的个体化风险估计工具。

章节片段

研究设计和数据来源

这项多中心预测建模研究使用了常规收集的临床数据,建立了用于模型开发的开发队列和用于外部验证的独立队列。我们从河南卒中队列中获取了开发队列,该队列是由中国国家脑血管疾病大数据平台支持的多中心观察性登记系统。自2011年以来,该登记系统已在河南省25个县级医疗联盟中招募了37,552名卒中患者。

研究人群和队列特征

开发队列和外部验证队列分别包含1201名和645名患者。图1展示了参与者选择过程。在开发队列中,247名患者(20.6%)在入院7天内发展为SAP。在外部验证队列中,160名患者(24.8%)发展为SAP。表1按结果分层展示了基线特征。
在开发队列中,SAP患者年龄较大,女性比例更高。他们的

讨论

在这项多中心研究中,我们开发并外部验证了一个可解释的机器学习模型,使用入院24小时内收集的常规临床变量来预测7天内的SAP。在九种候选算法中,随机梯度提升在区分度、校准、分类指标和决策曲线轮廓方面表现出最平衡的整体性能。其区分性能在内部和外部验证队列中保持稳定。

结论

总体而言,我们的研究结果表明,可以使用一小部分常规入院变量准确估计早期SAP风险。最终模型在内部和外部验证中表现出稳定的性能,产生了临床可解释的预测因子模式,并成功作为在线工具部署。这些特点支持其作为住院卒中患者早期风险评估的临床辅助工具的潜力。

出版同意

不适用。手稿不包含任何需要单独出版同意的可识别个体参与者数据、图像或病例细节。

数据可用性声明

用于模型开发的数据来自河南卒中队列。当前研究中生成和/或分析的数据集不公开,因为它们包含敏感的患者级信息,但可以根据相关伦理和数据治理机构的批准,向相应作者请求获得。

CRediT作者贡献声明

赵明阳:撰写——原始草稿、验证、方法学、正式分析。周倩瑜:撰写——审阅与编辑、监督、方法学。张强:撰写——审阅与编辑、监督、方法学。王连科:撰写——审阅与编辑、监督、方法学。王盼盼:撰写——审阅与编辑、监督、方法学。秦颖:撰写——审阅与编辑、监督、方法学。陈家军:撰写——审阅与编辑、监督、方法学。刘梦婷:

伦理批准和参与同意

本研究获得了郑州大学机构审查委员会(ZZUIRB2023-005)的批准,并遵循赫尔辛基宣言进行。在纳入研究之前,已从所有参与者或其法定代表处获得了书面知情同意。

资助

本研究得到了中国国家社会科学基金[项目编号25BRK002]、河南省科技研究项目[项目编号242102311135]、河南省重点研发与推广计划[项目编号252102311151]以及2023中原人才计划[项目编号33220063]的支持。资助者在研究设计、数据收集与分析、报告撰写或提交决定方面没有发挥作用

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:孙长青报告获得了中国国家社会科学基金的财务支持。孙长青报告获得了河南省科技研究项目的财务支持。孙长青报告获得了2023中原人才计划的财务支持。陈家军报告获得了河南省的财务支持

致谢

作者感谢所有参与医院的医务人员以及所有参与研究的人员。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号