大语言模型在非结构化临床笔记中检测术后谵妄的效能:一项回顾性队列研究

《npj Digital Medicine》:Efficacy of large language models in detecting postoperative delirium from unstructured clinical notes: A retrospective cohort study

【字体: 时间:2025年12月13日 来源:npj Digital Medicine 15.1

编辑推荐:

  【编辑推荐】术后谵妄(POD)的早期识别是临床难题。本研究首次对比了大语言模型(Llama-3-70B/GPT-4o)与医师基于非结构化临床笔记诊断POD的效能。结果显示LLMs具有更高敏感性(0.900/0.868 vs 0.723)和几乎完美的评估者间一致性(Fleiss' κ=0.852/0.854),并能提前约1天发现POD。研究表明LLMs可作为医师辅助工具提升POD诊断的时效性和可重复性。

  
术后谵妄(Postoperative Delirium, POD)是外科手术后常见的并发症,影响着约5%-52%的手术患者。这种急性脑功能障碍不仅延长住院时间、增加ICU再入院风险,更与死亡率上升及长期认知功能衰退密切相关。尽管临床指南推荐使用意识模糊评估法(Confusion Assessment Method, CAM)等工具进行常规筛查,但实际工作中因人力有限、评估频率不足等因素,导致近半数POD病例被漏诊。更棘手的是,医护人员往往将患者的异常行为以自由文本形式记录于电子病历中,使得POD的诊断高度依赖后期对临床笔记的回顾性解读。
为解决这一临床痛点,首尔国立大学医院的研究团队开展了一项突破性研究,首次系统评估了大语言模型(Large Language Models, LLMs)在非结构化临床笔记中自动识别POD的效能。该研究发表于《npj Digital Medicine》,通过对31,304例非心脏大手术患者超过217万条临床笔记的分析,发现LLMs不仅展现出优于医师的敏感性,更实现了近乎完美的诊断一致性,为POD的早期干预提供了全新解决方案。
研究团队采用回顾性队列设计,从医院临床数据仓库(SUPREME系统)提取2019-2021年间的手术患者数据。通过筛选包含谵妄相关关键词(如"意识模糊""定向障碍"等)的临床笔记,最终对7,168条记录进行三重评估:由三名麻醉医师独立标注,同时使用Llama-3-70B和GPT-4o模型进行20轮自动评估。研究创新性地采用"小样本提示"技术,使LLMs能模仿临床推理过程,有效避免了传统自然语言处理(NLP)方法所需的大规模标注工作。
诊断效能比较:LLMs展现高敏感性优势
在患者层面分析中,LLMs表现出显著的敏感性优势。以需要抗精神病药物治疗或神经科医师确诊为标准的"临床显著POD"为参照,Llama-3-70B和GPT-4o的敏感性分别达到0.900和0.868,显著高于医师组的0.723。特别值得注意的是,在医师漏诊的107例POD患者中,Llama-3-70B和GPT-4o分别成功识别出72例(67.3%)和63例(58.9%)。虽然医师组特异性(0.814)高于LLMs(0.463-0.547),但LLMs更高的阴性预测值(0.939-0.933)表明其排除诊断的可靠性更强。
评估一致性:LLMs实现近乎完美的诊断标准化
医师间的评估一致性令人担忧:Fleiss' kappa系数仅为0.219(轻度一致),完全一致的诊断仅占50.8%。相比之下,两种LLMs模型的评估者间一致性达到近乎完美水平(kappa=0.852-0.854),完全一致率超过77%。这种稳定性凸显了LLMs在标准化POD诊断方面的潜在价值,有望减少因评估者经验差异导致的诊断波动。
诊断时效性:LLMs提前一天发现POD迹象
通过Kaplan-Meier生存分析发现,LLMs能显著提早识别POD征象。Llama-3-70B的中位诊断时间为34.5小时,GPT-4o为37.5小时,而医师组需62.9小时。对数秩检验显示LLMs与医师的差异具有统计学意义(P<0.001),相当于为临床干预争取了近24小时的宝贵时间。
稳健性验证:无关键词场景下LLMs依然优异
为排除关键词依赖的干扰,研究团队特别设计了敏感性分析:随机选取30例临床记录中不含谵妄关键词的患者(15例POD阳性,15例阴性)进行盲法评估。结果再次证实LLMs的优势:敏感性(0.800-0.733)显著高于医师(0.400),评估一致性也保持在高水平(kappa=0.834-0.956)。这表明LLMs能捕捉到超越关键词的语义特征,具备真正的临床推理能力。
研究结论指出,LLMs作为辅助筛查工具,能有效弥补人工评估的局限性。其高敏感性、早期预警能力和诊断一致性,为解决POD识别难题提供了创新路径。特别是对于症状不典型的亚临床型谵妄,LLMs通过持续分析护理记录等非结构化文本,有望实现"无缝监测"。
当然,这项研究也揭示了若干挑战。LLMs较高的假阳性率(特异性较低)提示其更适合作为筛查而非确诊工具;模型在韩语医疗文本中的表现需在不同语言环境中验证;与金标准CAM评估的直接对比仍有待完善。此外,如何将LLMs整合到临床工作流程中,并解决数据隐私、责任界定等伦理问题,是未来应用的关键。
这项研究标志着人工智能在围术期医学应用的重要进步。通过将LLMs的文本理解能力与临床专业知识相结合,我们可能正站在POD管理范式变革的起点——从被动应对转向主动预防,最终改善外科患者的长期预后。随着技术迭代和临床验证的深入,这种"人机协同"的诊断模式有望拓展到更多医疗场景,重塑数字化医疗的未来图景。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号