大型语言模型在骨关节感染临床病例解决中的效能评估与比较研究

【字体: 时间:2025年06月17日 来源:Mayo Clinic Proceedings: Digital Health

编辑推荐:

  本研究针对骨关节感染(OAI)临床决策中专家短缺的难题,系统评估了15种大型语言模型(LLM)在糖尿病足感染(DFI)、假体周围感染(PJI)等5类OAI病例中的表现。结果显示OpenEvidence与Microsoft Copilot以94.4%准确率并列第一,GPT-4o和Gemini 2.5 Pro紧随其后。该研究为AI辅助复杂感染性疾病诊疗提供了实证依据,凸显医疗专用模型在循证决策中的优势。

  

骨关节感染(Osteoarticular infections, OAIs)正成为现代医疗体系的重大挑战。随着全球人口老龄化和关节置换手术量激增,假体周围感染(PJI)发生率已达1%-2%,预计到2030年美国每年相关医疗费用将突破18.5亿美元。这类感染需要长期抗生素治疗、多次手术和复杂康复,但全球范围内精通OAIs管理的专科医生严重短缺,导致诊疗质量存在显著地域差异。

在此背景下,Mayo Clinic的研究团队开展了一项开创性研究,系统评估15种大型语言模型(Large Language Models, LLMs)在解决OAIs临床病例中的表现。研究聚焦糖尿病足感染(DFI)、骨折相关感染(FRI)、假体周围感染(PJI)、化脓性关节炎(SA)和脊柱骨髓炎(VO)五大临床场景,通过126道基于指南的标准化问题,检验AI模型在诊断、治疗和管理策略上的准确性。论文发表于《Mayo Clinic Proceedings: Digital Health》,为AI在感染病学领域的应用提供了重要循证依据。

研究团队采用多阶段方法:首先系统筛选包含通用型(如GPT-4o、Gemini 2.5 Pro)和医疗专用型(如OpenEvidence、AMBOSS GPT)的15种LLMs;基于国际指南开发126道临床问题,涵盖诊断、治疗等关键决策点;采用混合效应逻辑回归分析模型性能差异,并以Likert量表评估高分模型的解释质量。所有测试在2025年4月集中完成,确保版本一致性。

结果显示:

  1. 总体性能:OpenEvidence与Microsoft Copilot以119/126(94.4%)的正确率领先,GPT-4o和Gemini 2.5 Pro以117分(92.9%)紧随其后。Scite.ai Plus表现最弱(84.9%)。
  2. 分领域表现:所有模型在DFI和SA中表现最佳(多个满分),但在PJI和VO中普遍出现3-5%的准确率下降,反映复杂感染管理的挑战性。
  3. 统计对比:以OpenEvidence为参照,Scite.ai Plus等5款模型显著劣势(OR 0.08-0.11, P<0.05),而GPT-4o等9款未显示统计学差异。
  4. 解释质量:Top4模型在6分制Likert评估中中位数达6分(IQR 6-6),但Gemini 2.5 Pro在VO领域出现更大幅度的准确性波动。

讨论部分指出三大核心发现:

  1. 专业模型优势:医疗专用系统OpenEvidence凭借实时文献检索机制(RAG)显著减少"幻觉",其94.4%的准确率甚至超过USMLE(美国医师执照考试)90%的基准线。
  2. 通用模型局限:尽管GPT-4o等百亿参数模型展现强大推理能力,但缺乏透明参考文献支持,在证据等级较低的临床问题上(如吸烟作为FRI风险因素)易犯常识性错误。
  3. 临床转化壁垒:现有LLMs在结构化考试中表现良好,但面对真实世界复杂病例时,其性能可能下降20-30%,亟需结合电子病历(EHR)系统构建多重校验机制。

该研究首次建立了OAIs领域LLMs的效能排行榜,证实整合最新医学证据的专用模型更具临床实用价值。作者建议未来开发应聚焦三个方向:嵌入医院信息系统实现实时数据交互、建立语义熵置信度阈值阻断低质量输出、通过多模型协同审计提升决策安全性。这些发现为AI辅助感染病诊疗的规范化应用奠定了重要基础,尤其对医疗资源匮乏地区的分级诊疗具有特殊意义。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号