
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型与提示工程在真实世界病例诊断中的准确性对比研究
【字体: 大 中 小 】 时间:2025年06月27日 来源:International Journal of Medical Informatics 3.7
编辑推荐:
本研究针对LLMs在临床决策中的潜在应用,系统评估了GPT-4o mini、GPT-4o、ERNIE和Llama-3四种模型对1122例真实风湿免疫病例的诊断性能。研究发现,few-shot提示法显著提升GPT-4o的top-1准确率至85.9%,且对罕见病诊断优势明显,为中文医疗场景的LLM优化提供实证依据。
在医疗人工智能快速发展的今天,大型语言模型(LLM)展现出了颠覆传统临床决策的潜力。然而,这些模型面对真实世界复杂病例时的可靠性究竟如何?不同提示工程方法又会产生怎样的影响?这些问题成为制约LLM临床落地的关键瓶颈。尤其对于诊断难度高的风湿免疫疾病——这类兼具复杂性和罕见性特征的疾病,患者平均需辗转3家医院、耗时5年才能获得正确诊断,LLM的应用价值更显迫切。
北京大学国际医院的研究团队在《International Journal of Medical Informatics》发表的最新研究,首次系统评估了GPT-4o mini、GPT-4o、ERNIE和Llama-3四种主流LLM对真实世界风湿免疫病例的诊断性能。研究团队收集了1122份住院病历,涵盖常见风湿病、罕见风湿病和非风湿病三大类,创新性地采用few-shot和chain-of-thought(CoT)两种提示工程方法进行对比分析。
关键技术方法包括:1) 从医院电子病历系统提取1122例真实住院病例构建评估队列;2) 采用hit1(模型首选项包含病历最终诊断的比例)作为核心指标;3) 对比zero-shot、few-shot和CoT三种提示策略;4) 计算每种方法的单例诊断成本。
主要研究结果
LLM诊断性能
在zero-shot模式下,四款模型hit1准确率惊人地接近(81.8%-82.9%),且对罕见风湿病的诊断优势显著。这一结果超越了既往研究中医生41%-78.1%的诊断准确率。
提示工程优化
few-shot方法使GPT-4o的hit1提升至85.9%,较基线提升3.5个百分点(p=0.02),但每次正确诊断成本增加4.54元。而CoT策略未显现显著改善,提示复杂推理提示在临床诊断中可能不具普适优势。
疾病类型差异
模型对风湿病(无论常见或罕见)的诊断准确率始终高于非风湿病,这可能源于风湿病特征性生物标志物更易被LLM捕捉。
研究结论与意义
该研究证实了LLM在真实临床环境中的诊断价值,尤其few-shot方法可释放GPT-4o的额外潜力,但其成本效益比仍需权衡。值得注意的是,ERNIE作为中文专用模型表现与国际模型相当,为本土化医疗AI发展注入信心。研究者建议未来开展多中心验证,并探索结合电子健康记录(EHR)系统的整合应用方案。这些发现为LLM在中文医疗场景的精准优化提供了重要循证依据,也为解决罕见病诊断延迟这一全球性难题开辟了新思路。
生物通微信公众号
知名企业招聘