基于大语言模型的ICU谵妄预测新方法:利用结构化电子健康记录的前瞻性研究
《Scientific Reports》:A large language model for delirium prediction in the intensive care unit using structured electronic health records
【字体:
大
中
小
】
时间:2025年11月07日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对重症监护室(ICU)谵妄早期预测的临床挑战,开发了首个基于大语言模型(LLM)的预测工具DeLLiriuM。研究团队创新性地将结构化电子健康记录(EHR)数据转化为文本格式,利用GatorTronS模型在104,303名患者数据上进行训练验证。结果显示,DeLLiriuM在外部验证集上达到AUROC 82.4(95% CI 81.8-83.0),显著优于传统机器学习模型。该研究为ICU谵妄的早期干预提供了精准预测工具,推动了人工智能在临床决策支持中的应用。
在重症监护室(ICU)中,谵妄(delirium)是一种常见的急性神经认知障碍,影响着高达31%的患者。这种以注意力波动、认知功能障碍和行为严重紊乱为特征的综合征,不仅延长患者的ICU住院时间,更与更高的死亡率密切相关。目前临床上主要使用ICU意识模糊评估法(CAM-ICU)和ICU谵妄筛查量表(ICDSC)进行诊断,但这些方法只能在谵妄发作后进行识别,无法实现早期预警。
传统的谵妄预测模型如PRE-DELIRIC和E-PRE-DELIRIC基于多元逻辑回归,虽然在早期预测方面取得了一定成效,但存在明显局限性:这些模型大多在单中心小样本数据上开发,泛化能力有限;而使用机器学习方法的研究往往难以捕捉电子健康记录(EHR)数据中的长期依赖关系。随着人工智能技术的发展,大语言模型(LLM)在医疗领域展现出巨大潜力,但此前的研究主要集中于临床文本分析,对结构化EHR数据的利用仍显不足。
为了解决这些挑战,Miguel Contreras领衔的研究团队在《Scientific Reports》上发表了创新性研究成果,开发了名为DeLLiriuM的大语言模型,专门用于ICU谵妄的早期预测。该研究的核心创新在于将结构化的EHR数据转换为文本格式,充分利用LLM在理解复杂临床信息方面的优势。
研究团队采用了多中心回顾性研究设计,整合了来自195家医院的104,303例ICU患者数据,包括eICU协作研究数据库、MIMIC-IV和佛罗里达大学集成数据仓库(UFH)三个大型数据库。研究严格筛选患者,只纳入首次ICU入院、住院时间超过24小时的患者,并排除了入院48小时内死亡或前24小时出现谵妄或昏迷的病例,确保数据的质量和预测的准确性。
研究采用GatorTronS(3.45亿参数)作为基础模型,将EHR中的生命体征、实验室检查、药物使用等81个特征转换为文本报告。通过掩码语言建模(MLM)进行领域自适应预训练,然后使用分类目标进行微调。模型使用SHAP分析提供可解释性,识别关键预测特征。验证采用内部-外部交叉验证策略,UFH数据用于训练和内部验证,MIMIC和eICU作为外部验证集。
研究共纳入104,303例患者,谵妄总发生率为3.5%。表1显示,谵妄患者年龄更大、BMI更低、ICU住院时间更长,昏迷和死亡率更高。不同数据库间的人口学特征和合并症分布存在差异,体现了多中心数据的多样性。
DeLLiriuM在外部验证集上表现优异,AUROC达到82.4(95% CI 81.8-83.0),AUPRC为11.8(95% CI 11.3-12.4),显著优于所有基线模型。与最佳结构化EHR基线(Transformer模型)和最佳文本EHR基线(LLaMA 3.1-8B)相比,DeLLiriuM在保持较轻量架构的同时实现了更好的泛化性能。
表2. DeLLiriuM与基线模型性能比较(部分)
SHAP分析揭示了与谵妄风险相关的关键临床特征。如图5所示,尿液比重、脑钠肽(BNP)、阴离子间隙等实验室指标,以及呼气末正压(PEEP)、潮气量等呼吸机参数具有高预测价值。生命体征中的心率、血压、血氧饱和度也排名靠前。
图6展示了四个典型案例的SHAP文本图,清晰显示了模型的决策依据。高龄、肌酐和乳酸升高、生命体征异常以及更负的RASS评分(镇静程度更深)是谵妄的强预测因子,而高格拉斯哥昏迷评分(GCS)、正常的实验室值和生命体征则与较低风险相关。
DeLLiriuM研究首次证明了大语言模型在利用结构化EHR数据进行ICU谵妄预测方面的有效性。与依赖完整时间序列数据的深度学习模型相比,DeLLiriuM仅使用文本化的数据摘要就实现了更优的性能,凸显了LLM捕捉临床信息细微差别的能力。
该研究的临床意义在于:首先,为ICU谵妄的早期识别提供了精准工具,使临床医生能够在谵妄发生前24小时进行风险评估;其次,通过SHAP分析提供的可解释性,增强了临床医生对模型预测的信任和理解;第三,提出的EHR文本化方法为其他临床预测任务提供了可借鉴的技术路径。
研究也存在若干局限性:GatorTronS的512个标记上下文长度限制了信息容量;依赖CAM-ICU和RASS评分可能低估真实发病率;时间特征仅使用最小最大值可能丢失重要动态信息。未来工作将探索更长上下文模型、更丰富的时间特征表示方法,并开展前瞻性验证。
总之,DeLLiriuM代表了人工智能在临床决策支持中的重要进展,为改善ICU患者预后提供了有前景的技术解决方案。随着进一步优化和验证,这一工具有望集成到临床工作流程中,实现谵妄的早期预防和个性化管理。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号