大型语言模型与资深消化科医师在胃肠症状疑难病例诊断中的对决:覆盖率和准确率的全面评估

【字体: 时间:2025年02月07日 来源:npj Digital Medicine 12.4

编辑推荐:

   本研究针对临床疑难病例诊断效率低下的问题,通过构建67例胃肠症状为主的疑难病例数据集,系统比较了7种大型语言模型(LLMs)与22位资深消化科医师的诊断表现。结果显示Claude 3.5 Sonnet的指导性诊断覆盖率(76.1%)显著优于医师组(45.5%),且诊断耗时(0.19分钟/例)和成本(0.0104美元/次)优势明显,为AI辅助疑难病例诊断提供了循证依据。

  

在临床实践中,未确诊疾病已成为全球性医疗难题。据统计,美国约有3000万人受此困扰,这些患者往往经历漫长而昂贵的"诊断奥德赛",承受着侵入性检查和误诊风险。消化系统症状因其非特异性,尤其容易导致诊断困境——甲状腺功能亢进、多发性骨髓瘤等非消化系统疾病常以胃肠症状首诊,使消化科医师面临跨学科诊断挑战。传统解决方案如多学科会诊(MDT)虽有效但资源稀缺,而医师使用搜索引擎等传统辅助工具效率低下且存在经验局限。随着GPT-4、Claude等大型语言模型(LLMs)通过美国医师执照考试(USMLE)等医学知识测试,这些AI工具能否成为破解诊断困境的新钥匙?

中国人民解放军空军军医大学西京医院消化病医院国家临床研究中心联合国内17家三甲医院,在《npj Digital Medicine》发表了一项开创性研究。团队从11本医学案例集中筛选出546例病例,经两轮专家评审最终纳入67例胃肠症状为主的疑难病例(25例消化系统疾病,42例非消化系统疾病),构建了严格离线的测试数据集。研究采用四轮独立查询方式评估7种主流LLMs(包括GPT-3.5t、GPT-4o、Gemini系列和Claude系列),并与22位临床经验中位数达18.5年的消化科专家进行双盲对比。所有诊断结论由3位资深专家组成的评审委员会按严格标准分类,主要终点是指导性诊断覆盖率(包含正确和具临床参考价值的诊断),次要终点包括最可能诊断准确率、耗时及成本分析。

关键技术方法包括:1)基于中国三级医院真实病例构建离线数据集;2)采用DeepL翻译结合GPT-4校验的中英双语病例处理;3)设置温度参数为0的API四轮独立查询;4)使用Krippendorff's Alpha评估模型一致性;5)通过专家委员会进行诊断分类和错误归因分析。

研究结果呈现多个突破性发现:
【Dataset】最终数据集包含67例病例,平均token数575.3±175.4,分为25例消化系统疾病和42例非消化系统疾病(免疫学10例、血液学9例等)。

【Diagnostic performance】Claude 3.5 Sonnet表现最优,指导性诊断覆盖率达76.1%(95%CI:70.6-80.9%),显著超过所有医师(p<0.05)。其覆盖率较医师使用传统辅助工具时高出30.6个百分点(76.1% vs 45.5%,p<0.001)。在诊断准确率方面,Claude 3.5 Sonnet(48.9%)、Claude 3 Opus(44.4%)和GPT-4o(42.9%)显著优于86.3%、77.3%和72.7%的医师。

【Subgroup analysis】消化亚组中,医师4准确率最高(64.0%),但Claude 3.5 Sonnet覆盖率(73.0%)显著优于90.9%的医师。非消化亚组中,Claude 3.5 Sonnet和Claude 3 Opus准确率(51.2%)超越95.5%的医师。LLMs在非消化病例表现更优(覆盖率54.2% vs 44.3%,p<0.001),而医师则相反(消化病例36.2% vs 非消化25.6%)。

【Analysis of time and cost】医师单例诊断耗时随辅助工具增加而延长:无辅助3.93分钟,使用1种8.74分钟,3种以上达17.94分钟;而LLMs平均仅需0.19分钟。成本方面,Claude 3 Opus最贵(0.0552美元/次),GPT-3.5t最便宜(0.002美元/次),Claude 3.5 Sonnet性价比最优(0.0104美元/次),远低于医师门诊费(3-30美元/次)。

【Hallucination analysis】Claude 3.5 Sonnet幻觉率最低(21.3%),Gemini-1.5-pro最高(62.7%)。幻觉数量与准确率呈中度负相关(r=-0.458,p=0.014),但与诊断错误无显著关联。

【Analysis of erroneous diagnoses】高级LLMs几乎无知识性错误(Claude 3.5 Sonnet 0%,医师64.3%),主要错误类型为"忽视关键线索"(39.1-72.9%)和"误解关键线索"(18.8-54.7%)。医师在非消化病例的知识缺陷显著高于消化病例(72.4% vs 49.4%,p<0.001)。

这项研究首次系统论证了高级LLMs在疑难病例诊断中的三重价值:扩展诊断思维边界、弥补跨学科知识不足、提升诊断效率。特别值得注意的是,Claude 3.5 Sonnet等模型在非本专业病例中的卓越表现,为解决"胃肠症状首诊的非消化系统疾病"这一临床痛点提供了新思路。研究同时揭示了LLMs的局限性:虽然覆盖率优势明显,但最可能诊断准确率与顶尖专家仍有差距;幻觉现象虽普遍存在,但未显著影响诊断正确性。这些发现为AI辅助诊断的临床应用划定了清晰边界——更适合作为"诊断雷达"而非最终决策者。

该研究的创新价值体现在三个方面:方法学上创建了首个严格离线的疑难病例测试集,避免了在线案例的信息泄露偏倚;临床上首次系统比较了多款LLMs与高年资专家的真实诊断差异;技术上开发了完整的诊断评估体系,包括错误归因分析和耗时成本量化。随着LLMs迭代升级,其诊断性能持续提升的现象(如Claude 3.5 Sonnet较旧版显著改进)提示这类工具将日益重要。研究者建议医疗机构、技术公司和政策制定者协同解决数据整合、隐私保护和伦理规范等挑战,推动LLMs安全有效地融入临床工作流。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号