大型语言模型与提示工程在真实世界病例诊断中的准确性对比研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月27日 来源：International Journal of Medical Informatics 3.7

编辑推荐：

　　本研究针对LLMs在临床决策中的潜在应用，系统评估了GPT-4o mini、GPT-4o、ERNIE和Llama-3四种模型对1122例真实风湿免疫病例的诊断性能。研究发现，few-shot提示法显著提升GPT-4o的top-1准确率至85.9%，且对罕见病诊断优势明显，为中文医疗场景的LLM优化提供实证依据。

在医疗人工智能快速发展的今天，大型语言模型(LLM)展现出了颠覆传统临床决策的潜力。然而，这些模型面对真实世界复杂病例时的可靠性究竟如何？不同提示工程方法又会产生怎样的影响？这些问题成为制约LLM临床落地的关键瓶颈。尤其对于诊断难度高的风湿免疫疾病——这类兼具复杂性和罕见性特征的疾病，患者平均需辗转3家医院、耗时5年才能获得正确诊断，LLM的应用价值更显迫切。

北京大学国际医院的研究团队在《International Journal of Medical Informatics》发表的最新研究，首次系统评估了GPT-4o mini、GPT-4o、ERNIE和Llama-3四种主流LLM对真实世界风湿免疫病例的诊断性能。研究团队收集了1122份住院病历，涵盖常见风湿病、罕见风湿病和非风湿病三大类，创新性地采用few-shot和chain-of-thought(CoT)两种提示工程方法进行对比分析。

关键技术方法包括：1) 从医院电子病历系统提取1122例真实住院病例构建评估队列；2) 采用hit₁(模型首选项包含病历最终诊断的比例)作为核心指标；3) 对比zero-shot、few-shot和CoT三种提示策略；4) 计算每种方法的单例诊断成本。

主要研究结果

LLM诊断性能
在zero-shot模式下，四款模型hit₁准确率惊人地接近（81.8%-82.9%），且对罕见风湿病的诊断优势显著。这一结果超越了既往研究中医生41%-78.1%的诊断准确率。
提示工程优化
few-shot方法使GPT-4o的hit₁提升至85.9%，较基线提升3.5个百分点(p=0.02)，但每次正确诊断成本增加4.54元。而CoT策略未显现显著改善，提示复杂推理提示在临床诊断中可能不具普适优势。
疾病类型差异
模型对风湿病（无论常见或罕见）的诊断准确率始终高于非风湿病，这可能源于风湿病特征性生物标志物更易被LLM捕捉。

研究结论与意义
该研究证实了LLM在真实临床环境中的诊断价值，尤其few-shot方法可释放GPT-4o的额外潜力，但其成本效益比仍需权衡。值得注意的是，ERNIE作为中文专用模型表现与国际模型相当，为本土化医疗AI发展注入信心。研究者建议未来开展多中心验证，并探索结合电子健康记录(EHR)系统的整合应用方案。这些发现为LLM在中文医疗场景的精准优化提供了重要循证依据，也为解决罕见病诊断延迟这一全球性难题开辟了新思路。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号