GPT-4o在急诊复杂呼吸系统病例分诊中的诊断准确性研究:一项基于肺科会诊和胸部CT的回顾性分析
《Scandinavian Journal of Trauma, Resuscitation and Emergency Medicine》:Evaluating GPT-4o for emergency disposition of complex respiratory cases with pulmonology consultation: a diagnostic accuracy study
【字体:
大
中
小
】
时间:2025年10月04日
来源:Scandinavian Journal of Trauma, Resuscitation and Emergency Medicine 3
编辑推荐:
本研究针对大型语言模型(LLM)在急诊复杂呼吸系统病例分诊决策中的实际应用价值开展诊断准确性研究。研究人员通过回顾性纳入221例需肺科会诊和胸部CT的急诊患者,采用三级渐进式输入模型(基础生命体征→实验室数据→影像学结果)测试GPT-4o的处置预测性能。结果显示,模型对住院/ICU预测灵敏度达91.9%,但对出院预测特异性仅20.8%,存在显著过度分诊倾向。研究表明GPT-4o可作为高风险病例筛查的辅助工具,但需结合临床决策共同使用。
在急诊医学领域,分诊决策始终是临床工作的核心挑战。特别是对于呼吸系统急症患者,准确判断其需要出院、普通病房住院还是重症监护室(ICU)治疗,直接关系到医疗资源的合理分配和患者安全。近年来,大型语言模型(LLM)如GPT-4o在医疗领域的应用展现出巨大潜力,但其在真实世界复杂病例分诊中的性能仍有待验证。现有研究表明,这类模型往往存在保守倾向,容易高估患者严重程度,导致过度分诊和医疗资源浪费。
在此背景下,土耳其Van教育与研究医院急诊科的Cem Yildirim团队开展了一项创新研究,旨在系统评估GPT-4o在预测需肺科会诊和胸部CT的复杂呼吸系统病例急诊处置中的诊断准确性。该研究近期发表于《Scandinavian Journal of Trauma, Resuscitation and Emergency Medicine》。
研究人员采用回顾性观察性研究设计,纳入了2024年11月至2025年2月期间221例成人患者。这些患者均因孤立性非栓塞性肺部疾病(如肺炎、慢性阻塞性肺疾病[COPD]急性加重、间质性肺病等)接受肺科会诊和胸部CT检查,代表了一组临床复杂性较高的急诊亚群。
研究团队设计了渐进式输入策略来测试GPT-4o的性能:模型1仅包含年龄、性别、氧饱和度(SpO2)、家庭氧疗状态和静脉血气参数;模型2在模型1基础上增加实验室数据(白细胞计数[WBC]、C反应蛋白[CRP]、尿素、肌酐);模型3则进一步整合胸部CT结果。每种模型都使用标准化提示词提交至GPT-4o,要求其预测最合适的处置方案。
研究结果显示,患者总体平均年龄为67.9±14.9岁,其中69.2%入住普通病房,9.0%转入ICU,21.7%出院回家。不同处置组间在SpO2、pH值和pCO2等关键指标上存在显著差异,反映出这些参数与病情严重程度的密切关联。
在住院(普通病房+ICU)预测方面,模型3表现出最高灵敏度(91.9%)和总体准确度(76.5%),但特异性最低(20.8%)。相反,对于出院预测,模型3特异性最高(91.9%)而灵敏度最低(20.8%)。模型1则显示出相对平衡的性能特征(灵敏度56.2%,特异性76.9%)。尽管模型3在多数指标上数值更优,但统计检验显示三个模型间的差异均未达到显著性水平(所有p>0.22)。
模型3在医院入院和普通病房入院的F1分数最高(分别为0.859和0.709),而ICU相关的F1分数在所有模型中相对稳定(约0.39-0.41)。这表明增加输入信息的复杂性可能带来 modest 的性能提升,特别是在非危重处置类别中。
按年龄分层分析显示,65岁以下和以上患者的准确度相当(68.1-76.4% vs 75.2-77.9%)。而按氧饱和度分层时,SpO2<80%的患者中准确度高达92.9%,这主要源于模型对此类患者100%的住院预测灵敏度。
在48名实际出院患者中,GPT-4o推荐入院的比例随模型复杂度增加而上升(模型1:21例,模型2:30例,模型3:38例)。这些"假阳性"入院推荐患者的14天再就诊率为23.8%-30.0%,主要以肺炎患者为主。研究人员据此推算了需要评估数(NNE),发现大约每3-4例GPT-4o推荐入院但临床实际出院的患者中,就有1例会在14天内再次就诊。
研究结论指出,GPT-4o在识别需要住院特别是ICU治疗的患者方面表现出高灵敏度,支持其作为复杂肺部病例分层决策支持工具的潜力。然而,模型对出院预测的低灵敏度导致的过度分诊倾向,限制了其独立临床应用的价值。这种保守倾向可能增加医疗资源负担,但同时也可能作为安全网减少漏诊风险。
讨论部分强调,GPT-4o更适宜作为"二次检查"工具而非独立分诊系统,用于标记边缘病例以供临床医生进一步评估。这种辅助性应用模式与当前人工智能在急诊医学中的整合策略相一致。研究同时指出了模型的黑箱特性、缺乏临床情境理解能力以及训练数据偏倚等局限性,这些因素都可能影响其在多样化医疗环境中的泛化性能。
该研究的创新之处在于首次在真实世界复杂呼吸系统病例中系统评估了GPT-4o的处置预测能力,采用了渐进式输入设计和多维度性能指标。研究为LLM在急诊医学中的临床应用提供了重要参考,也为未来前瞻性验证和工作流程整合奠定了基础。随着人工智能技术的不断发展,此类工具有望在保障患者安全的前提下,优化急诊资源配置,提升医疗决策质量。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号