基于大语言模型的脓毒症早期预测系统的开发与前瞻性应用

【字体: 时间:2025年05月18日 来源:npj Digital Medicine 12.4

编辑推荐:

  脓毒症致死率高,现有模型依赖结构化电子健康记录(EHR)数据,易漏读非结构化临床笔记中的信息。研究人员开发 COMPOSER-LLM 系统,整合大语言模型(LLM)与 COMPOSER 模型。其在 2500 例患者中表现优于传统模型,为脓毒症预测提供新方向。

  
脓毒症(Sepsis)作为机体对感染的异常免疫反应,每年全球影响超 4800 万成年人,导致约 1100 万人死亡,在美国每三例医院死亡中就有一例与脓毒症相关。早期识别并及时干预(如抗生素治疗、液体复苏)能显著改善患者预后,但当前多数脓毒症预测模型主要依赖电子健康记录(EHR)中的结构化数据(如生命体征、实验室指标),往往忽略非结构化临床笔记(如分诊记录、病程记录)中蕴含的关键情境信息,例如患者入院时的症状总结、体格检查结果和影像学报告解读等,这些信息对鉴别脓毒症与类似疾病(如心源性休克、肺栓塞)至关重要。传统基于文档级嵌入的自然语言处理方法存在上下文捕捉不足、可解释性差、易受重复文本干扰等局限,难以充分挖掘非结构化数据的价值,因此亟需一种能有效整合两类数据的新型预测模型。

为解决这一问题,美国加州大学圣地亚哥分校(UC San Diego)的研究团队开展了相关研究,开发并前瞻性验证了 COMPOSER-LLM 系统,这是一种结合大语言模型(LLM)对非结构化临床笔记的处理能力与 EHR 结构化数据的多模态模型,旨在提升脓毒症早期预测的准确性,尤其是在高不确定性诊断场景中的表现。该研究成果发表在《npj Digital Medicine》。

研究采用的关键技术方法包括:

  1. COMPOSER 模型:基于深度学习的脓毒症预测模型,整合结构化数据(实验室指标、生命体征、人口学信息等)生成脓毒症风险评分,可提前 4 小时预测脓毒症发作。
  2. LLM-based 微分诊断工具:采用开源 Mixtral 8x7B LLM,结合检索增强生成(RAG)技术,从临床笔记中提取与脓毒症及模拟疾病相关的临床症状(如发热、器官功能障碍),通过贝叶斯似然计算器评估各 differential diagnosis 的概率。
  3. 双阈值决策机制:当 COMPOSER 风险评分高于 primary threshold(θ?=0.75)时直接触发警报;介于 secondary threshold(θ?=0.5)与 θ?之间时,启动 LLM 分析临床笔记以降低假阳性率。
  4. 真实世界部署:基于 FHIR 和 HL7v2 标准的云平台实时接入 EHR 数据,在 UC San Diego 医疗系统的两个急诊部门进行前瞻性验证。

研究结果


1. 模型性能优于传统方法


在回顾性验证队列(1746 例急诊患者,16.6% 脓毒症)中,单独 COMPOSER 模型的敏感性为 72.9%,阳性预测值(PPV)为 22.6%,F-1 分数 34.5%,假警报率(FAPH)0.037;而 COMPOSER-LLM 通过引入 LLM 微分诊断工具,在风险评分 0.5-0.75 区间内,敏感性保持 72.1%,PPV 显著提升至 52.9%,F-1 分数 61.0%,FAPH 降至 0.0087。前瞻性验证队列(754 例患者,18.4% 脓毒症)中,COMPOSER-LLM 的敏感性 70.8%,PPV 58.2%,F-1 分数 63.9%,FAPH 0.0086,与回顾性结果一致,表明其在真实世界中具有稳定性。

2. 假阳性病例的临床价值


对 50 例假阳性病例的图表回顾显示,62%-64% 的患者在警报触发时存在细菌感染可疑迹象,提示即使未最终确诊脓毒症,COMPOSER-LLM 的警报仍能促使临床医生关注潜在感染风险,避免漏诊。此外,83.1%(回顾性)和 73.2%(前瞻性)的假阳性患者的实际诊断包含在 LLM 生成的前 5 位 differential diagnosis 中,表明模型的鉴别诊断能力有助于减少误诊。

3. 感染可疑患者中的表现


在临床怀疑感染的患者亚组(定义为 6 小时内开具血培养和抗生素医嘱)中,COMPOSER-LLM 的 PPV 高达 80.1%-81.3%,显著高于单独 COMPOSER 模型(55.4%-58.4%),表明其在目标人群中具有更强的临床实用性,可作为 “数字脓毒症生物标志物” 辅助诊断。

研究结论与意义


COMPOSER-LLM 通过整合 LLM 对非结构化临床笔记的深度语义分析,显著提升了脓毒症预测的准确性和可靠性,尤其是在传统模型易产生不确定性的风险区间。其核心优势包括:

  • 减少假警报:通过微分诊断排除脓毒症模拟疾病,使 FAPH 降低约 78%,缓解临床警报疲劳。
  • 增强可解释性:LLM 提取的临床症状带有明确依据(如 “发热伴低血压”),优于传统 NLP 的黑箱模式,便于医生理解决策逻辑。
  • 实时性与扩展性:基于云平台的部署支持实时推理,且开源模型(Mixtral 8x7B)确保合规性和可复制性,为多中心推广奠定基础。

该研究首次证明 LLM 与传统机器学习模型的结合能有效利用 EHR 中的非结构化数据,为复杂疾病的早期预测提供了新范式。未来研究可进一步探索模型微调、跨机构泛化性及语音识别技术在实时数据采集中的应用,推动 AI 在重症医学中的临床转化。COMPOSER-LLM 的成功为脓毒症及其他类似急症的精准诊疗开辟了新方向,有望通过早期干预降低死亡率和医疗负担。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号