编辑推荐:
本综述聚焦 AI 在临床恶化预测中的应用,指出现有传统评分系统(如 EWS、NEWS 等)存在局限。通过对 5 项前瞻性临床验证研究的分析,发现 AI 模型可降低院内及 30 天死亡率,缩短住院时间,但 ICU 停留时间增加,其有效性及临床适用性仍需进一步研究。
背景
临床恶化通常发生在细微的生理变化之后,若未被注意到,可能导致患者不良预后。传统评分系统(如 EWS、NEWS、APACHE II、APACHE III 等)在检测这些前兆方面的准确性存在局限性,这促使人们探索基于人工智能(AI)的预测模型,以提高预测准确性,进而改善患者预后。目前,AI 在预测住院患者临床恶化方面受到越来越多的关注,但基于 AI 的预测模型的有效性及其改善患者预后的能力尚未确定。传统评分系统通常采用格拉斯哥昏迷量表(GCS)、年龄和生命体征等参数进行评估,由于数据维度有限和临床场景的过度概括,可能忽略个体差异和临床情况的复杂性,存在一定局限性。而机器学习算法(如逻辑回归、神经网络、支持向量机等)在一些基于数据库的回顾性研究中已被证明有效,理论上比传统评分系统具有更高的适应性和更准确的预测能力,能够实时连续监测,及时发现患者病情变化,有望更准确地识别临床恶化,实现及时干预,同时较高的敏感性和特异性可减少误报,更合理地分配有限的医疗资源。近期一项关于 AI-based 临床模型在预测非 ICU 成年患者危急生命事件中的元分析发现,基于人工智能的预测模型在预测患者恶化方面总体更有效,但以往研究主要侧重于所开发模型的回顾性验证,而非前瞻性临床验证。近年来,随着机器学习和人工智能研究的深入,更多临床前瞻性研究得以发表,但 AI 在住院患者临床恶化中是否能起到积极作用尚未确定。本系统综述的目的是评估经过临床验证的 AI 模型在预测院内临床恶化方面的有效性,并评估其在改善患者预后方面的临床意义。
方法
本系统综述遵循 PRISMA 指南进行。于 2024 年 4 月 8 日在 PubMed 和 Web of Science 数据库中进行全面的系统文献检索,使用了 “人工智能”“机器学习” 和 “恶化” 等术语,完整的检索策略可在补充文件 1 中找到。手动检索符合条件的研究参考文献,以识别任何可能遗漏的研究。本研究已在国际系统评价前瞻性注册中心注册,注册号为 CRD42024556102。由两位资深作者(S.-X. Yuan 和 C.-D. Wu)独立进行标题摘要和全文筛选,任何分歧均由第三位研究人员(S.-Q. Liu)解决。对于全文筛选,记录每篇文章的排除原因,相关数据由作者(S.-X. Yuan、C.-D. Wu 和 S.-Q. Liu)提取。
临床恶化被定义为任何类型的死亡率、计划外 ICU 转移、医院或 ICU 延长住院时间(LOS)、快速反应团队(RRT)启动或呼吸心脏骤停。基于 AI 的模型被定义为使用机器学习、深度学习或其他自学习技术创建的模型。纳入研究的对象为非 ICU 住院成年患者(年龄≥18 岁),涵盖各种医疗状况。排除涉及产科患者(孕妇或产后妇女)的研究,因为这一人群可能有独特的临床轨迹和结果,与一般成年患者不同。感兴趣的干预措施是使用基于 AI 的模型预测住院患者的临床结果,对照为临床决策中不使用基于 AI 的模型,如传统早期预警评分或临床医生判断。主要关注的结果包括:(a)死亡率:全因院内死亡率;(b)ICU 转移:住院期间转至重症监护室(ICU)的比率;(c)住院时间(LOS):总住院时间,包括在 ICU 的时间(如有);(d)快速反应团队(RRT)响应:RRT 干预在预防临床恶化或不良结果中的激活情况。排除标准包括对健康志愿者或非住院个体进行的研究,以及聚焦于 COVID-19 的研究,以确保分析结果的普遍性。
使用 ROBINS-I 工具评估非随机干预研究的偏倚风险,该工具评估比较两种或多种干预措施对健康影响的非随机研究结果的偏倚风险。
所有统计分析均使用 RevMan 5.3 软件进行。为每项研究计算效应量,分类结果使用优势比,连续结果使用均差及其各自的 95% 置信区间。对于连续变量,将中位数和四分位距(IQR)值转换为均值和标准差(SD),然后进行合并分析。不一致性指数(I2)用于衡量研究之间的异质性程度,I2 值为 25%、50% 和 75% 分别对应轻度、中度和重度异质性。由于 I2 值超过 50%,表明存在显著异质性,因此采用随机效应模型进行分析。
结果
在对参考文献进行额外研究检查后,筛选了 3787 篇文章的摘要以确定 eligibility。详细的文献筛选过程如图 1 所示。在筛选阶段共排除 6238 条记录,主要是因为大多数关于机器学习和预后预测的研究侧重于使用数据集进行模型开发和验证,而非真实世界的临床应用,这些研究不符合我们的纳入标准,即需要在真实世界住院环境中进行临床验证的模型。为确保文献的全面覆盖,我们采用了广泛的检索策略,并依靠彻底的手动筛选来识别符合条件的研究,这种方法使我们能够捕获所有潜在相关的文章,同时最大限度地减少排除符合真实世界临床验证标准的研究的风险。最后,共有 5 项研究 [6,13-16] 纳入我们的系统评价。我们筛选了十年内(2013 年及以后)的文献,纳入的文献中,4 篇(80%)发表于 2020 年及以后。
表 1 概述了纳入的研究。3 项研究 [6,13,16] 为单中心研究,而 2 项研究分别在 4 个和 19 个中心进行 [14,15]。Levin 等人在模型中使用了随机森林(RF),而其他研究使用逻辑回归(LR)作为模型开发算法,更多详细信息见补充文件 2。
使用 ROBINS-I 工具评估,2 项研究 [6,16] 由于参与者的选择、偏离预期干预措施和数据缺失被评估为中度偏倚水平。总体而言,纳入文献的质量相对较高,偏倚风险较低(图 2)。
图 3 的森林图展示了五项研究的院内死亡率,表明使用基于 ML 的临床恶化预警模型后,患者的院内死亡率显著降低(优势比 [OR],0.69;95% 置信区间 [CI],0.60-0.79)。特别是,Escobar 等人和 Levin 等人报告了 30 天死亡率的下降(图 S1),表明这种基于 ML 的模型也可能改善住院患者的长期预后 [13,15]。
四篇文章报告了 ICU 转移的结果。与未使用基于 AI 模型的组相比,使用基于 AI 模型的组患者的 ICU 转移次数更少(优势比 [OR],0.90;95% 置信区间 [CI],0.76-1.07),ICU 转移率呈下降趋势,尽管结果未达到统计学显著(图 4)[6,13,15,16]。
图 5 显示,应用基于 ML 的恶化预警模型后,住院时间缩短 [6,13,15,16],总体均差为 - 0.35 天,95% 置信区间为 [-0.68,-0.01],表明 MLM 组的 LOS 比 No-MLM 组更短,总体效果检验具有统计学意义(Z=2.01,P=0.04),表明 MLM 组 LOS 的减少不太可能是偶然的。此外,2 项研究 [6,14] 还报告了 ICU 住院时间,显示出不同的效果(图 S2)。
两项研究阐述了 RRT 激活的频率(图 S3),总体均差为 - 0.35,95% 置信区间为 [-0.68,-0.01],表明 MLM 组的 RRT 激活次数少于 No-MLM 组 [6,14],总体效果检验具有统计学意义(Z=2.01,P=0.04),意味着在 MLM 组中观察到的 RRT 激活次数的减少不太可能是偶然的。
讨论
我们的综述表明,在真实世界的临床验证条件下,AI 的使用对改善患者预后有积极影响。部署 AI 模型后,院内死亡率和 30 天死亡率显著降低,ICU 转移次数呈下降趋势,尽管结果未达统计学显著。虽然总体住院时间减少,但 ICU 住院时间显著增加,这些发现突出了 AI 在临床环境中的多方面影响,揭示了其益处和需要进一步审查的领域。
死亡率的降低与之前的研究一致,表明基于 AI 的模型可以加强临床决策并促进早期干预 [6,13-15]。然而,观察到的 ICU 住院时间增加引发了关于 AI 采用的更广泛影响的重要问题。一种可能的解释是,AI 系统可能更准确地识别高危患者,导致更早的 ICU 入院和对可能被传统方法漏诊的个体进行更长时间的护理。另一种可能是,这种趋势可能反映了对 AI 生成警报的过度依赖,可能导致不必要的 ICU 入院,这凸显了 AI 实施需要一种平衡的方法,确保其补充而非取代临床判断。
AI 的临床影响必须在更广泛的医疗系统和患者群体的背景下考虑。对于医护人员来说,AI 的采用既带来了机会,也带来了挑战。虽然 AI 可以通过自动化风险评估来减少工作量,但频繁的警报可能导致警报疲劳和对系统的信任度下降,这可能会削弱 AI 工具的有效性,因此需要额外的培训,以确保临床医生理解并适当响应 AI 生成的警告。对于患者来说,改善预后的潜在好处必须与过度诊断或不必要干预的风险相权衡。在社区层面,AI 的广泛采用可能有助于更有效的资源分配,但也引发了关于公平获得 AI 增强护理的伦理和后勤问题。此外,AI 的可解释性问题仍然是一个关键挑战。尽管观察到的临床益处(如死亡率降低)很有希望,但无法完全理解 AI 生成预测背后的推理构成了其采用的重大障碍。如果临床医生无法解释潜在的逻辑,可能会犹豫是否依赖 AI 建议,这可能会限制该技术的实用性。解决这个问题需要开发更具可解释性的 AI 模型,以及向临床医生解释 AI 生成输出的标准化框架,这不仅会增强对 AI 系统的信任,还会促进它们无缝集成到临床工作流程中。
我们的研究结果还突出了现有文献中的几个空白。虽然过去的研究表明,基于 AI 的预测模型在内部和外部验证设置中表现良好 [8],但 Veldhuis 等人的系统综述中纳入的研究是回顾性的,真实世界的临床验证仍然有限。例如,Bailey 等人 2013 年关于基于 AI 模型的临床验证研究发现,临床恶化没有改善 [16],而 Evans 等人 2016 年的研究显示死亡率和住院时间减少,但受限于仅 175 名患者的小样本量 [17]。迄今为止,大多数研究都是单中心或非随机试验,这限制了其发现的普遍性 [15]。此外,缺乏探索 AI 对临床工作流程和患者结果的长期影响的研究。未来的研究应优先考虑多中心随机对照试验(RCT),以提供更有力的证据,以及定性研究,以了解影响 AI 采用的人为因素。
基于这些发现,我们建议了几种优化 AI 临床使用的策略。首先,医疗系统应投资于临床医生的教育和培训,以增强对 AI 工具的理解并减轻警报疲劳。其次,AI 模型的设计应考虑用户反馈,确保警报是可操作的且与上下文相关。最后,需要进一步研究来评估 AI 实施的成本效益及其对医疗差距的影响,这些步骤将有助于确保 AI 以最大限度地发挥其效益同时解决其潜在缺点的方式集成到医疗系统中。
优势和局限性
我们的综述中纳入的研究均经过临床前瞻性验证,并评估了基于 AI 的模型在现实世界中的有效性和性能。据我们所知,本综述是第一项全面分析经过临床验证的住院预测模型的临床意义的系统综述和元分析,我们发现基于 AI 的模型可以有效改善患者预后。
同时,我们的综述也有一些局限性。首先,由于当前文献中出版物不足等原因,符合纳入标准的研究较少。此外,这些文章大多使用逻辑回归,这被认为是一种传统的 AI 模型,只有一篇文章使用现代 AI 模型随机森林进行建模。
另一个值得注意的局限性是纳入研究中患者人群的可变性。个别研究中疾病的类型和严重程度差异显著,这可能独立于 AI 干预影响死亡率结果。例如,一些研究可能纳入了病情更晚期或更复杂的患者,而另一些研究则侧重于病情较轻的病例。患者特征的这种异质性引入了潜在的混杂因素,可能影响我们发现的普遍性。
然而,我们通过确保所有纳入的研究都在普通内科和外科病房进行,没有选择性地纳入特定疾病或状况,在一定程度上缓解了这个问题。这种方法有助于使研究中的临床环境和护理实践保持一致,为评估 AI 驱动的干预措施提供了更具可比性的基线。尽管如此,研究中疾病严重程度和患者人口统计学的固有可变性强调了对结果进行谨慎解释的必要性。未来的研究应旨在标准化患者特征或按疾病严重程度分层分析,以减少这种异质性并增强发现的稳健性。
结论
我们的研究提供了证据,表明人工智能驱动的预警系统有可能在现实世界的临床环境中显著改善患者预后。AI 与现有监测系统的集成已显示出有希望的结果,突出了这些先进工具在及时检测临床恶化方面的价值。然而,尽管这些发现令人鼓舞,但需要认识到,基于 AI 的模型的有效性和现实世界适用性仍是需要持续研究和评估的领域。