大型语言模型与提示工程在真实世界病例诊断中的准确性对比研究

【字体: 时间:2025年06月27日 来源:International Journal of Medical Informatics 3.7

编辑推荐:

  本研究针对LLMs在临床决策中的潜在应用,系统评估了GPT-4o mini、GPT-4o、ERNIE和Llama-3四种模型对1122例真实风湿免疫病例的诊断性能。研究发现,few-shot提示法显著提升GPT-4o的top-1准确率至85.9%,且对罕见病诊断优势明显,为中文医疗场景的LLM优化提供实证依据。

  

在医疗人工智能快速发展的今天,大型语言模型(LLM)展现出了颠覆传统临床决策的潜力。然而,这些模型面对真实世界复杂病例时的可靠性究竟如何?不同提示工程方法又会产生怎样的影响?这些问题成为制约LLM临床落地的关键瓶颈。尤其对于诊断难度高的风湿免疫疾病——这类兼具复杂性和罕见性特征的疾病,患者平均需辗转3家医院、耗时5年才能获得正确诊断,LLM的应用价值更显迫切。

北京大学国际医院的研究团队在《International Journal of Medical Informatics》发表的最新研究,首次系统评估了GPT-4o mini、GPT-4o、ERNIE和Llama-3四种主流LLM对真实世界风湿免疫病例的诊断性能。研究团队收集了1122份住院病历,涵盖常见风湿病、罕见风湿病和非风湿病三大类,创新性地采用few-shot和chain-of-thought(CoT)两种提示工程方法进行对比分析。

关键技术方法包括:1) 从医院电子病历系统提取1122例真实住院病例构建评估队列;2) 采用hit1(模型首选项包含病历最终诊断的比例)作为核心指标;3) 对比zero-shot、few-shot和CoT三种提示策略;4) 计算每种方法的单例诊断成本。

主要研究结果

  1. LLM诊断性能
    在zero-shot模式下,四款模型hit1准确率惊人地接近(81.8%-82.9%),且对罕见风湿病的诊断优势显著。这一结果超越了既往研究中医生41%-78.1%的诊断准确率。

  2. 提示工程优化
    few-shot方法使GPT-4o的hit1提升至85.9%,较基线提升3.5个百分点(p=0.02),但每次正确诊断成本增加4.54元。而CoT策略未显现显著改善,提示复杂推理提示在临床诊断中可能不具普适优势。

  3. 疾病类型差异
    模型对风湿病(无论常见或罕见)的诊断准确率始终高于非风湿病,这可能源于风湿病特征性生物标志物更易被LLM捕捉。

研究结论与意义
该研究证实了LLM在真实临床环境中的诊断价值,尤其few-shot方法可释放GPT-4o的额外潜力,但其成本效益比仍需权衡。值得注意的是,ERNIE作为中文专用模型表现与国际模型相当,为本土化医疗AI发展注入信心。研究者建议未来开展多中心验证,并探索结合电子健康记录(EHR)系统的整合应用方案。这些发现为LLM在中文医疗场景的精准优化提供了重要循证依据,也为解决罕见病诊断延迟这一全球性难题开辟了新思路。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号