综述:人工智能在急症护理环境中预测院内心脏骤停和呼吸骤停的应用——对临床实践的启示
【字体:
大
中
小
】
时间:2025年10月11日
来源:Frontiers in Medical Technology 3.8
编辑推荐:
本综述系统探讨了人工智能(AI)与机器学习(ML)模型在预测院内心脏骤停(CA)和呼吸骤停(RA)方面的最新进展。文章指出,基于易获取临床数据(如生命体征、实验室结果)的ML模型(如随机森林、XGBoost、LSTM)展现出卓越预测性能(AUC 0.73–0.96),显著优于传统评分系统(如NEWS、MEWS)。这些技术有望通过早期识别高风险患者、支持及时干预来改善临床决策,但需前瞻性验证其临床效用并解决数据质量、模型特异性及工作流整合等挑战。
院内心脏骤停(CA)和呼吸骤停(RA)是住院患者面临的灾难性并发症。据统计,美国医院每年发生约20万例此类事件,但生存率仅约25%,且近几十年来改善有限。识别具有不良事件风险的患者是改善预后的关键。尽管已有早期预警评分(EWS)和快速反应协议等多种努力,识别高危患者仍是提供先发性护理的限速步骤。患者病情恶化的检测通常依赖于不同时间间隔的临床检查或生命体征测量,这取决于医院和重症监护病房(ICU)的政策,存在患者病情恶化未被察觉的巨大风险。
鉴于CA和RA可能最终导致死亡和严重的神经系统后遗症,及时检测临床恶化至关重要。虽然当前的风险分层工具(如基于EWS的方法)有助于临床决策,但它们在准确性、敏感性和用户依赖性方面存在局限。因此,有必要进一步改进预测工具的性能,以提升关于院内患者安全的临床判断。
人工智能(AI)为基础模型通过处理复杂的大规模数据集,可以促进临床决策。随着用于预测危及生命事件的AI算法日益增多,本系统综述旨在评估机器学习(ML)算法在预测院内危重患者心脏骤停、危及生命的室性心律失常和呼吸骤停中的作用。
本系统综述研究遵循系统综述和Meta分析首选报告项目(PRISMA)框架进行。检索了PubMed、Embase和Web of Science数据库(截止2023年10月20日),无任何限制。此外,对所有潜在研究的参考文献列表进行了筛选以识别更多相关文章。
纳入标准为:仅招募成年患者(≥18岁)、采用AI/ML算法预测上述不良事件、使用从危重患者病房(ICU、心脏ICU、急诊科)收集的数据、并以英文发表。排除标准包括使用普通病房数据、非原创文章、涉及动物、体外或体内研究以及院外心脏骤停患者。
数据提取过程由两位独立作者进行,从符合条件的研究中提取信息,包括第一作者、期刊、病房、样本量、ML和传统模型的性能及特征以及结局指标。使用QUADAS-2工具进行偏倚风险和质量评估。
初步检索获得1594篇呼吸骤停相关文章和409篇心脏骤停相关文章。去除重复后,剩余933篇RA文章和302篇CA文章。最终,14项CA研究和22项RA研究符合纳入排除标准,被纳入系统综述。
预测心脏骤停对于启动及时预防措施至关重要。ML算法已使用易获取变量作为输入来预测心脏骤停。
在ICU环境中,研究利用床旁生命体征监测数据(心率、收缩压、舒张压、平均血压、SpO2和呼吸频率)作为输入。有研究报道心脏骤停预测指数可预测95%的心脏骤停事件,且80%的事件可提前25分钟以上识别。另一项研究使用床旁生命体征、基础疾病、实验室数据、用药和器官衰竭数据,其提出的ML模型灵敏度在0.846至0.909之间,特异性在0.923至0.946之间。
深度学习模型在预测ICU患者心脏骤停方面也显示出优势。有模型利用生理学和人口统计学特征,在测试时间间隔内预测心脏骤停的表现优于改良早期预警评分(MEWS)和国家早期预警评分(NEWS)。另一项研究基于电子健康记录中的生命体征时间序列数据,采用时间卷积网络和深度泰勒分解框架,其CA预测准确性也优于标准NEWS评分。此外,有研究开发了人工神经网络(ANN),利用心率变异性和呼吸频率变异性分析的参数,在室性心动过速发生前1小时进行预测,该模型灵敏度达88%,特异性达82%,AUC为0.93。
在急诊科环境中,有ML模型利用分诊数据预测院内CA。结果显示,随机森林算法优于其他ML模型(梯度提升和极端随机树分类器),AUC达到0.931。虽然各ML模型与逻辑回归的AUC差异不显著,但ML模型均显著优于NEWS评分系统。另有研究使用易于获取的特征开发LASSO回归模型,预测因胸痛就诊于急诊科患者的危重结局(包括CA),该模型显著优于HEART、GRACE和TIMI评分,AUC达0.953。还有研究旨在识别预测急诊科患者主要不良心脏事件(包括CA)的最相关变量,使用基于随机森林的新方法选择变量,并采用基于几何距离的ML评分系统推导风险评分。仅使用三个变量(收缩压、平均心电图RR间期和平均瞬时心率)的模型在预测不良事件方面表现出良好性能(AUC: 0.812),优于使用23个变量的模型(AUC: 0.736)以及传统的TIMI(AUC: 0.637)和MEWS(AUC: 0.622)评分。
在脓毒症患者中,ML模型也被用于预测CA。使用堆叠算法和多元数据集获得了最佳结果,该模型可在事件发生前6小时以超过70%的准确性和灵敏度预测CA发生率。尽管ML算法在确定患者健康状况方面优于传统方法(APACHE II和MEWS评分变量),但临床实践需要更高的灵敏度和特异性。有研究提出一种深度学习算法,结合多层感知器和增强的双向长短期记忆网络(LSTM)来处理基线特征和时间序列生命体征,与现有算法相比,该模型提高了准确度、灵敏度、特异性和AUC,同时降低了误报率。
预测呼吸骤停和机械通气需求有助于临床医生识别高危患者并实施及时预防措施。
在COVID-19患者中,随机森林分类器、梯度提升机等模型被用于预测ICU患者的有创通气需求。随机森林和梯度提升机表现最佳,平均AUC分别为0.69和0.68。有深度学习模型使用常用临床变量(心率、血氧饱和度、呼吸频率、FIO2和pH值)作为输入,预测住院患者和COVID-19患者的机械通气需求,该模型在提前24小时预测需要机械通气的患者方面表现出良好性能(AUC > 0.88)。另有研究使用两步模型预测COVID-19危重患者的呼吸衰竭和有创机械通气,其中极限梯度提升(XGBoost)算法在MIMIC-III数据库上训练,以预测患者在接下来6、12、18或24小时内是否需要有创机械通气,该模型在普通ICU人群和COVID-19患者中均表现良好。
基于3D CT的深度学习模型也被提出用于预测COVID-19结局,包括是否需要插管。当包含实验室数据时,预测结果改善,而排除CT图像则降低了模型准确性。有研究评估深度卷积神经网络(dCNN)预测COVID-19肺炎相关住院患者结局(包括插管)的能力,通过深度学习算法估计胸部CT扫描中每个肺叶的空气空间混浊评分系统,发现该算法对住院患者结局(包括插管)具有高度预测性。类似地,有研究探讨了dCNN评估的CT成像在预测COVID-19患者机械通气需求中的作用,模型表现出的高特异性使其能够预测哪些患者可能因COVID-19感染需要机械通气。还有研究使用无监督ML算法(高斯混合模型)预测COVID-19患者的插管,仅使用简单参数(呼吸频率和SpO2)即可实现87.8%的插管识别准确率。
此外,XGBoost和分类提升(CatBoost)算法在急诊科使用生命体征和人口统计学数据进行初始分诊时,在预测COVID-19患者机械通气需求方面表现出高准确性。另一项研究显示,XGBoost和随机森林在使用电子健康记录数据预测急诊科COVID-19患者机械通气方面优于逻辑回归。类似地,有研究表明XGBoost模型在预测COVID-19患者入院48小时内发生呼吸衰竭方面具有最高平均准确度,优于SMOTEENN XGBoost、逻辑回归和改良早期预警评分。输入变量包括急诊科使用的给氧类型、患者年龄、急诊严重指数分级、呼吸频率、血清乳酸和人口统计学特征。还有研究显示,床旁ML模型(快速COVID-19严重指数)使用3个变量(呼吸频率、脉搏血氧饱和度和氧气流速),可用于预测COVID-19患者的危重呼吸系统疾病,这些模型优于快速序贯[脓毒症相关]器官衰竭评估(qSOFA)、CURB-65和Elixhauser评分。另一项研究表明,ML模型(神经网络、随机森林、分类和回归决策树)在根据入院时的临床参数预测危重COVID-19方面优于传统工具,包括APACHE II评分。
在其他临床环境中,有AI模型利用生理学特征和既往病史预测急性呼吸衰竭,在事件发生前1、2、4和6小时进行预测,该模型在事件发生前6小时的AUC为0.869,且优于MEWS和NEWS评分。有研究使用监督ML算法预测ICU患者拔管后低氧血症,发现随机森林和轻量梯度提升机(LightGBM)在低氧血症预测中表现最佳。
ML技术已被用于利用重症监护入院时常用的床旁和实验室变量预测24小时内的插管。随机森林和逻辑回归在预测插管方面表现出良好性能(AUC分别为0.86和0.77)。循环神经网络(RNN)模型被开发用于利用时间序列数据预测无创呼吸支持失败,其中长短期记忆(LSTM)模型与门控循环单元(GRU)和带可训练衰减的GRU相比具有最高准确度和AUC。另有研究开发了ML(CatBoost)模型预测拔管后无创通气失败,使用十五个参数作为输入,该模型与随机森林(RF)、逻辑回归(LR)、XGBoost、K近邻(KNN)、朴素贝叶斯、Light GBM、支持向量机(SVM)、自适应提升(AdaBoost)和多层感知器(MLP)相比表现更佳。此外,时间卷积网络-前馈神经网络在预测重症监护环境中的插管方面优于LSTM、前馈神经网络和逻辑回归。
有ML算法用于预测接受冠状动脉旁路移植术患者的再插管、长期机械通气和死亡,其中人工神经网络在预测这些结局方面表现出良好性能,与逻辑回归模型无差异。另一个新模型用于预测危重患者的插管,使用ICU入院最初几小时内收集的数据,其性能优于标准临床基准。最近,开发了一种用于预测ICU患者有创机械通气的实时预警算法,该算法使用了七种ML模型,与传统调整风险算法相比表现出改进的性能。有趣的是,仅使用非侵入性参数的模型与同时使用非侵入性和侵入性参数的模型相比,提供了出色的预测性能。时间更新的轻量梯度提升机(Time Updated LightGBM)模型也被提出用于预测晚期无创通气失败,与常见模型相比表现出更好的性能。
将AI/ML模型整合到急症护理环境中对转变临床实践具有重要意义,推动向更主动、更精确的患者管理迈进。
增强临床决策与早期干预:AI/ML模型为增强临床医生决策提供了重要机会,特别是在急诊科等高流量环境中的初始风险分层和分诊。通过提供即将发生的CA或RA的早期预警,这些模型可以拓宽干预的"诊断和治疗窗口",使临床医生能够在明显恶化发生之前启动预防措施。这种主动方法相较于当前通常在关键事件已经开始后才做出反应的响应模式,是一个显著进步。
降低发病率和死亡率的潜力:这些模型的核心临床益处在于其识别高危患者的能力,从而促使及时干预,这有可能显著降低与CA/RA相关的院内发病率和死亡率。这直接转化为患者安全性的改善和更好的总体结局,因为关键资源和注意力可以精准地集中在最需要的时候给予最需要的患者。
加强监测与主动护理:AI/ML与流式生命体征和电子健康记录(EHR)的无缝集成可以实现连续、智能的监测。这种能力允许检测指示疾病恶化的细微生理变化,这些变化通常被间歇性手动检查所遗漏。这样的系统将临床实践从周期性的、基于间隔的评估转变为更动态的实时监控系统,培养一种先发性护理文化,即在全面危机发展之前启动干预措施。
临床医生教育与工作流整合的必要性:为了成功实施,至关重要的是临床医生需要接受充分的教育,以了解如何有效使用和解释这些AI/ML模型,"按说明使用"。这意味着需要直观的用户界面,以可理解的格式呈现复杂的AI预测结果,明确的警报解读指南,以及将模型深思熟虑地整合到现有的临床工作流程中,以确保无缝采用并避免对既定护理流程造成干扰。没有适当的培训和整合,即使是最精确的模型也可能无法发挥其全部临床潜力。
应对监管和伦理考量:在广泛临床采用之前,必须建立一个稳健的框架来规范关键问题,例如AI驱动决策的责任归属、标准化不良事件报告机制、系统升级和维护协议,以及保护敏感患者数据的严格网络安全措施。这些考量是建立临床医生和患者信任、确保AI在医疗保健领域负责任和公平部署的基础。
虽然AI/ML在急症护理中的潜力显而易见,但有几个关键领域需要未来的重点研究,以促进它们成功、安全地转化为常规临床实践。
严格的前瞻性验证与临床效用证明:一个最重要的建议是迫切需要对AI/ML模型进行严格的前瞻性评估。虽然回顾性研究显示出相当大的前景,但未来的研究必须超越这些,进行大规模的前瞻性临床试验,以确认其在真实世界环境中的有效性。至关重要的是,这些试验必须证明对患者死亡率、住院时间缩短或不良事件发生率降低等临床终点的切实影响。研究必须明确展示这些方法如何转化为"可操作的护理路径和工作流程",从而证明明确的临床效用,而不仅仅是改进的统计预测。
数据集和平台的标准化:一个显著的挑战是"缺乏统一的数据集和所提出AI/ML算法采用的参数",这目前阻碍了评估其在不同机构间的普适性和可比性。未来的研究应侧重于制定标准化的数据收集协议,并为向临床医生报告预测创建标准化平台,确保互操作性并促进更广泛的采用。这种标准化将支持更稳健的多中心研究,并为AI开发和验证培养协作环境。
提高模型特异性以减轻警报负担:虽然高灵敏度对于危及生命的病症非常理想,以确保不漏掉任何关键事件,但模型的特异性也必须高才能应用于临床实践。低特异性会导致高比例的误报,这会显著增加临床医生的工作量,引发压力,并可能导致警报疲劳和脱敏。这种脱敏可能矛盾地导致漏掉真实事件,从而损害患者安全的目标。因此,未来的研究需要优先优化灵敏度和特异性之间的平衡,确保实际效用并避免临床医生倦怠。
解决数据质量、噪声和真实标签问题:真实世界的临床数据常常受到"噪声"和质量变异性的影响。未来的研究必须开发处理不完整或有噪声数据的稳健方法,以确保模型在不同临床环境中的可靠性。此外,准确的"真实标签"对于有效的AI/ML算法训练至关重要,而当前用于标签生成的方法(如自然语言处理)容易出错,半监督模型仍处于研究阶段。
伦理AI开发与治理:除了技术性能,未来的AI/ML模型必须在开发时明确考虑伦理原则,包括公平性、准确性、透明度、可解释性、问责制、数据隐私和网络安全。这些考虑不仅仅是监管障碍,而是建立信任、确保AI负责任和公平地融入临床护理的基础要求。
更大样本量与普适性:目前的证据主体主要由"样本量相对较小"的研究组成,这限制了其发现的普适性。未来的研究必须优先进行大规模、多中心研究,以验证模型在不同患者群体和临床环境中的性能,确保产生可广泛应用的有力且普适的结果。
系统性重新设计以实现可操作的护理路径:反复强调AI模型需要转化为"可操作的护理路径和工作流程",这表明目标远远超出了仅仅开发技术上更优越的预测算法。一个AI模型,无论多么准确,如果其预测不能无缝集成并积极影响临床决策和后续行动,那么它就是一个惰性工具。这意味着需要对现有临床流程进行根本性的重新设计,而不是简单地将AI叠加在现有实践之上。
大多数纳入的研究样本量相对较小,因此结果应谨慎解读。研究在设计、ML方法和数据来源方面存在显著异质性,这可能影响结果的可比性和普适性。在临床实践中,所需输入数据的质量不可能完全相同。虽然AI系统已被证明比传统诊断系统提高了准确性(尽管准确度范围很广),但关于这些模型预测临床恶化的临床验证的前瞻性研究很重要,但相对缺乏。模型的特异性必须高才能应用于临床实践。低特异性将导致高误报负担,增加医疗保健提供者的工作量和压力。此外,不仅需要前瞻性研究来进一步确定这些方法的准确性和普适性,还需要研究其向可操作的护理路径的转化,以证明其临床效用。
机器学习算法在使用易获取变量作为输入预测住院患者心脏骤停和呼吸骤停方面显示出有希望的结果。如果成功应用于临床实践,ML模型可以识别高危患者并降低死亡率和发病率。然而,进一步的验证和临床试验设计将决定ML模型在各种临床环境中的有效性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号