探讨大型语言模型与传统临床模型在心力衰竭预测中的效用:一项初步研究

《International Journal of Surgery》:Exploring the prognostic utility of large language models versus traditional clinical models in heart failure: a pilot study

【字体: 时间:2025年11月20日 来源:International Journal of Surgery 10.1

编辑推荐:

  LLMs在心衰预后预测中的表现及可重复性研究。采用结构化数据和 discharge summaries 进行对比分析,发现ChatGPT和DeepSeek在结构化数据(AUC 0.59/0.56)表现低于传统模型(0.63),但在非结构化数据(AUC 0.72/0.67)中接近临床模型(0.74)。研究证实LLMs在处理非结构化临床文本时具有潜力,但需更大样本验证。

  

背景:

大型语言模型(LLMs)在临床决策支持方面展现出潜力;然而,它们在心力衰竭(HF)风险预测中的作用仍不确定。

目的:

这项初步研究使用结构化的临床数据和非结构化的出院摘要,评估了两种通用LLM(ChatGPT和DeepSeek)的预测性能和可重复性,并将其与传统临床模型进行了比较。

方法:

自贡HF研究中的结构化数据包括473名住院心力衰竭患者,这些数据包含33个临床变量,用于预测90天内的全因死亡或再住院的复合结局。MIMIC-IV队列的出院摘要包括2,091名ICU心力衰竭患者的数据,用于预测1年内的全因死亡率。使用标准化提示从每个LLM中获取预测概率。将模型预测结果与逻辑回归结果进行比较,并通过组内相关系数评估可重复性。

结果:

在自贡HF研究中,两种LLM的区分能力有限(ChatGPT的AUC为0.59,DeepSeek的AUC为0.56),表现低于传统模型(AUC为0.63)。在MIMIC-IV队列中,ChatGPT的区分能力更高(AUC为0.72),优于DeepSeek(AUC为0.67,P<0.001),且与临床模型的表现相当(AUC为0.74,P=0.31)。决策曲线分析显示,在低至中等阈值下,ChatGPT具有轻微的优势,而DeepSeek的优势较小。重复预测显示两种模型的预测结果存在显著差异。

结论:

这项初步研究表明,LLM在处理结构化数据时的预测价值有限,但在基于文本的风险预测方面表现相当。这些发现表明LLM在处理非结构化临床信息方面具有潜力,同时也强调了在更大规模、更现代的队列中进行验证的必要性。

通俗语言总结:这项研究探讨了两种大型语言模型(ChatGPT和DeepSeek)使用结构化临床数据和非结构化出院摘要预测心力衰竭结果的准确性。在包含473名患者的数据集中,两种LLM在预测90天内的结局方面表现均不如传统临床模型。然而,在包含2,091名ICU患者的大型数据集中,ChatGPT在预测1年死亡率方面的表现与临床模型相当,而DeepSeek的效果较差。研究表明,LLM可能有助于分析非结构化临床数据,但其预测价值需要在更大规模的研究中进一步验证。

文本由机器生成,可能存在不准确之处。常见问题解答

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号