使用临床记录预测术后风险的大型语言模型的基本能力

【字体: 时间:2025年02月13日 来源:npj Digital Medicine 12.4

编辑推荐:

  华盛顿大学圣路易斯分校 AI for Health Institute 的 Charles Alba 等人在npj Digital Medicine期刊上发表了题为 “The foundational capabilities of large language models in predicting postoperative risks using clinical notes” 的论文。该研究聚焦于大语言模型(LLMs)在预测术后风险方面的应用,为围手术期护理提供了新的思路和方法,有望改善患者预后、提升医疗质量,在医疗领域具有重要的意义。

  

探索大语言模型在术后风险预测中的应用:基于临床笔记的研究


华盛顿大学圣路易斯分校 AI for Health Institute 的 Charles Alba 等人在npj Digital Medicine期刊上发表了题为 “The foundational capabilities of large language models in predicting postoperative risks using clinical notes” 的论文。该研究聚焦于大语言模型(LLMs)在预测术后风险方面的应用,为围手术期护理提供了新的思路和方法,有望改善患者预后、提升医疗质量,在医疗领域具有重要的意义。


一、研究背景


术后并发症是影响患者预后的重要因素,超过 10% 的手术患者会经历严重的术后并发症,如肺炎、血栓等,这些并发症会增加患者死亡率、延长住院时间并提高医疗成本。早期识别患者风险因素并实施有效预防措施,对改善患者预后至关重要。


传统的术后风险预测机器学习模型多利用数值、分类变量或时间序列测量数据,而基于文本的临床笔记虽蕴含丰富信息,却未得到充分利用。临床笔记作为临床叙事的一种形式,能传达传统表格数据无法表达的患者个性化信息,对围手术期决策具有重要价值。


随着 ChatGPT 的出现,LLMs 在医学领域的研究主要集中于对话式聊天机器人的应用与开发,在直接分析临床笔记以预测手术结果和并发症方面的探索较少。本研究旨在填补这一空白,利用临床笔记中的信息,开发能预测术后风险的模型,助力早期识别患者风险因素。


二、研究材料与方法


(一)研究数据


研究数据来自 Barnes Jewish Hospital(BJH)2018 - 2021 年成年患者的电子麻醉记录,共纳入 84,875 份术前笔记及其手术结果。患者年龄均值为 56.9 岁,男性占比 50.3%,白人占比 74%。研究涉及的术后结局包括 30 天内死亡、深静脉血栓(DVT)、肺栓塞(PE)、肺炎、急性肾损伤(AKI)和谵妄。


(二)模型选择


研究采用了多种基于 BERT 和 GPT 的大语言模型,如 BioGPT、ClinicalBERT 和 BioClinicalBERT,同时以传统词嵌入模型(如 word2vec 的连续词袋模型 CBOW、doc2vec、GloVe 和 FastText)作为基线进行对比。


(三)技术路线


  1. 自监督微调:通过自监督微调,让预训练的 LLMs 适应围手术期文本,根据模型原有的训练目标,利用训练数据缩小预训练模型语料库与围手术期笔记语料库之间的差距。

  2. 融入标签微调:在自监督微调的基础上,通过半监督方法将标签信息融入微调过程,在模型的隐藏层最后添加辅助全连接前馈神经网络来预测标签,引入 λ 参数平衡监督和自监督目标的损失。

  3. 基础微调策略:采用多任务学习框架,利用数据集中所有可用标签对模型进行微调,构建基础模型,使模型能同时预测多种术后风险,每个标签对应一个任务特定的辅助神经网络,通过 λ 参数控制各任务损失对总损失的贡献。


(四)评估指标与验证策略


研究采用 5 折交叉验证和嵌套交叉验证确保模型评估的稳健性和公平性。主要评估指标包括受试者工作特征曲线下面积(AUROC)和精确召回曲线下面积(AUPRC),以全面评估模型在类别不平衡情况下的预测性能。对于表现最佳的基础模型,还报告了准确率、灵敏度、特异性、精确率和 F 分数。


三、研究结果


(一)预训练 LLMs 在围手术期护理中的表现


与传统词嵌入模型相比,临床导向的预训练 LLMs 在预测术后风险方面表现更优。以 30 天内死亡为例,预训练 LLMs 的 AUROC 绝对提升最高可达 38.3%,AUPRC 绝对提升最高可达 33.2%。这表明预训练 LLMs 在捕捉临床相关上下文方面具有潜在能力,即使其训练数据并非专门针对围手术期护理。


(二)迁移学习:预训练模型适应围手术期语料库的改进


通过自监督微调,将预训练模型暴露于围手术期特定文本后,模型性能进一步提升。以 PE 为例,AUROC 绝对提升最高可达 3.2%,AUPRC 绝对提升最高可达 1.5%。这显示了预训练模型适应围手术期文本特征后,能更好地识别术后并发症风险,缩小了预训练模型与围手术期护理语料库之间的差距。


(三)迁移学习:进一步融入标签的改进


在微调过程中融入标签信息后,模型性能再次提升。以 PE 为例,AUROC 相对自监督方法提升最高可达 1.8%,AUPRC 提升最高可达 2%。这表明同时利用文本和标签数据进行训练,能增强模型的预测性能。


(四)LLMs 从术前笔记预测术后并发症的基础能力


基础微调模型在预测术后风险方面表现最佳。与自监督方法相比,以 PE 为例,AUROC 提升最高可达 3.6%,AUPRC 提升最高可达 2.6%。基础模型在预测多种临床结局方面展现出强大潜力,为围手术期护理提供了更可靠的风险预测工具。


(五)ML 预测器对预测性能的影响


研究对比了不同机器学习预测器(如 XGBoost、逻辑回归、随机森林和任务特定的全连接神经网络)在基础模型文本嵌入上的性能。结果发现,没有单一分类器能在所有指标和结局上始终优于其他分类器,逻辑回归在某些情况下表现稍好,这表明经过良好调整的语言模型能生成精确的上下文表示,与简单分类器配合也能有效工作。


(六)基础模型的定性评估


通过对基础模型进行定性安全评估和适应围手术期护理的评估,发现模型已从通用生物医学文献或非围手术期临床笔记的文本,适应到围手术期护理笔记的术语。模型产生的有害输出极少,安全性较高,更适用于围手术期护理场景。


(七)模型的可解释性


利用 SHapley Additive exPlanations(SHAP)分析发现,与风险手术或不良事件相关的文本,如 “thrombectomy”“clot” 等,常引发对潜在术后风险的预测。但由于临床笔记词汇量大且 Shapley 值相似,每个标记对特定结局的贡献相对较小。


(八)不同模型的比较


在未微调时,BioGPT 在 6 项任务中的 5 项表现出色,ClinicalBERT 在 1 项任务中表现较好;微调后,基础 BioGPT 模型在 6 项任务中的 4 项表现出色,BioClinicalBERT 在 2 项任务中表现较好。BERT 模型和 GPT 模型在预测术后风险的性能差异较小,表明 GPT 模型在围手术期护理的分类任务中也具有竞争力。


(九)表格特征的影响


融入表格特征(如人口统计学、实验室结果等)后,基础模型仍保持稳健优势。对于不平衡结局(如 DVT 和 PE),表格特征对提升预测能力作用显著,AUPRC 值大幅增加,表明表格特征在预测罕见结局方面至关重要。


(十)与 NSQIP 手术风险计算器的比较


将最佳表现的基础模型与 NSQIP 风险计算器进行比较,结果显示基础模型在结合临床笔记和表格特征时,在准确率、精确率和 F 分数上优于 NSQIP 风险计算器,但灵敏度较低;仅使用临床笔记时,基础模型在准确率和精确率上占优,但灵敏度和 F 分数较低。NSQIP 风险计算器灵敏度高,但准确率和精确率欠佳,可能过度将患者分类为高风险。


(十一)方法的通用性


在 MIMIC - III 数据集上重复实验,结果与在 BJH 数据集上的主要发现基本一致。预训练 LLMs 优于基线模型,自监督微调、融入标签微调均能提升性能,基础模型表现最佳,这表明 LLMs 的基础能力可能扩展到其他临床护理领域。


四、研究结论与讨论


研究表明,预训练的临床 LLMs 在预测术后风险方面比传统词嵌入模型表现更优,且通过自监督微调、融入标签微调等策略可进一步提升性能。基础模型利用多任务学习框架,在预测多种术后风险时表现出色,具有计算和临床应用方面的优势,能为临床决策提供更全面的支持。


尽管研究取得了重要成果,但仍存在局限性。数据主要来源于 BJH 的麻醉笔记,具有单一性;文本数据质量可能存在问题,影响模型性能;研究采用的模型相对较小,结论可能不适用于大规模 LLMs;未对不同手术类型进行亚组分析,限制了预测结果的临床实用性。


未来研究方向包括与临床医生紧密合作,收集模型输出意义的反馈,优化临床决策支持系统;探索参数高效微调方法,应用于大规模模型;进行数据三角测量,整合多种数据提高预测准确性。


总体而言,该研究首次系统地探索了 LLMs 在利用术前临床笔记预测术后风险方面的能力,为 LLMs 在围手术期护理中的应用提供了重要依据,有望推动其在临床实践中的广泛应用,改善患者护理和预后,同时也为后续研究指明了方向,具有重要的临床意义和研究价值。


相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号