大型语言模型在短临床案例中的诊断与分诊性能评估:结构化提示的优化作用

《Journal of Medical Systems》:Diagnosis and Triage Performance of Contemporary Large Language Models on Short Clinical Vignettes

【字体: 时间:2025年10月19日 来源:Journal of Medical Systems 5.7

编辑推荐:

  本研究针对通用大语言模型(LLMs)在临床诊断与分诊中的可靠性问题,系统评估了ChatGPT-4、DeepSeek-R1等8种当代LLMs在48例短临床案例上的表现。研究发现,结构化提示显著提升模型性能:诊断准确率从89.84%升至91.67%,分诊准确率从76.82%升至86.20%,且安全建议比例增至94.53%。结果表明,LLMs在文本诊断任务中已接近初级医生水平,但分诊准确性仍需优化,为AI临床集成提供了实证依据。

  
随着人工智能技术的飞速发展,大型语言模型(Large Language Models, LLMs)在医疗领域的应用潜力日益受到关注。这些模型凭借强大的自然语言处理能力,能够解析临床文本、辅助诊断决策,甚至参与患者分诊。然而,通用型LLMs在真实医疗场景中的可靠性究竟如何?其诊断准确性是否足以媲美专业医生?分诊建议是否安全可控?这些问题成为制约AI临床落地的关键瓶颈。
为了回答这些问题,西安交通大学第一附属医院的研究团队在《Journal of Medical Systems》发表了一项最新研究,系统评估了8种主流LLMs(包括ChatGPT-4、ChatGPT-o1、DeepSeek-V3、DeepSeek-R1、Gemini-2.0、Copilot、Grok-2和Llama-3.1)在48例短临床案例上的诊断与分诊表现。研究通过对比无提示和结构化提示两种场景,深入分析了模型的准确性、安全性及错误模式。
研究方法概要
研究采用Levine等学者开发的标准化临床案例数据集,包含48例简短文本描述,覆盖四种分诊紧急程度(紧急、1日内、1周内、自我护理)。模型评估分为两组:无提示组仅提供案例描述,而结构化提示组额外提供47例已标注答案的案例作为上下文学习样本。主要评估指标包括诊断准确率、分诊准确率、过度分诊率、安全建议比例,并引入能力比较评分(Capability Comparison Score, CCS)以校正案例难度差异。
研究结果
诊断性能:结构化提示显著提升模型表现
在无提示条件下,LLMs的平均诊断准确率达到89.84%,其中ChatGPT-o1和DeepSeek-R1以93.75%的准确率并列第一。当引入结构化提示后,整体准确率进一步提升至91.67%,Grok-2模型表现尤为突出,准确率从89.58%升至93.75%。值得注意的是,部分案例(如第18例溶血性尿毒症综合征和第42例蜜蜂蜇伤)仍被所有模型误诊,提示有限临床信息下LLMs的推理局限。
分诊性能:准确性提升但过度分诊加剧
分诊任务对LLMs挑战更大。无提示时平均准确率仅为76.82%,ChatGPT-o1以89.58%领先;而结构化提示将均值提升至86.20%,ChatGPT-o1达到93.75%。然而,这种提升伴随过度分诊比例从53.15%升至65.62%,即模型更倾向于高估紧急程度。安全建议比例同步增至94.53%,表明模型倾向于“安全优先”策略。
错误模式分析:过度分诊为主,低估风险需警惕
混淆矩阵显示,LLMs的错误主要集中在将“1日内”案例误判为“紧急”,或“自我护理”案例升为“1周内”。尽管低估紧急性的案例较少,但如肺炎被误分为“1周内”等错误仍具临床风险。结构化提示虽减少低估错误,但以增加过度分诊为代价。
CCS指标揭示案例难度影响
CCS评分(诊断均值50.46,分诊均值52.34)虽低于原始准确率,但更真实反映模型应对复杂案例的能力。ChatGPT-o1和DeepSeek-R1在CCS排名中保持领先,说明其在高难度案例中稳定性更优。
结论与意义
本研究证实,当代先进LLMs在短文本临床诊断任务中已接近初级医生水平(93.75% vs. 96%),但在分诊准确性上仍有差距。结构化提示作为一种无需额外训练的优化策略,可显著提升模型性能与安全性,但需警惕其引发的资源浪费风险。未来需进一步探索多模态数据、多轮对话场景及不确定性感知提示技术,以推动LLMs在临床实践中的可靠应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号