大型语言模型在骨关节感染临床病例解决中的效能评估与比较研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月17日 来源：Mayo Clinic Proceedings: Digital Health

编辑推荐：

　　本研究针对骨关节感染(OAI)临床决策中专家短缺的难题，系统评估了15种大型语言模型(LLM)在糖尿病足感染(DFI)、假体周围感染(PJI)等5类OAI病例中的表现。结果显示OpenEvidence与Microsoft Copilot以94.4%准确率并列第一，GPT-4o和Gemini 2.5 Pro紧随其后。该研究为AI辅助复杂感染性疾病诊疗提供了实证依据，凸显医疗专用模型在循证决策中的优势。

骨关节感染(Osteoarticular infections, OAIs)正成为现代医疗体系的重大挑战。随着全球人口老龄化和关节置换手术量激增，假体周围感染(PJI)发生率已达1%-2%，预计到2030年美国每年相关医疗费用将突破18.5亿美元。这类感染需要长期抗生素治疗、多次手术和复杂康复，但全球范围内精通OAIs管理的专科医生严重短缺，导致诊疗质量存在显著地域差异。

在此背景下，Mayo Clinic的研究团队开展了一项开创性研究，系统评估15种大型语言模型(Large Language Models, LLMs)在解决OAIs临床病例中的表现。研究聚焦糖尿病足感染(DFI)、骨折相关感染(FRI)、假体周围感染(PJI)、化脓性关节炎(SA)和脊柱骨髓炎(VO)五大临床场景，通过126道基于指南的标准化问题，检验AI模型在诊断、治疗和管理策略上的准确性。论文发表于《Mayo Clinic Proceedings: Digital Health》，为AI在感染病学领域的应用提供了重要循证依据。

研究团队采用多阶段方法：首先系统筛选包含通用型(如GPT-4o、Gemini 2.5 Pro)和医疗专用型(如OpenEvidence、AMBOSS GPT)的15种LLMs；基于国际指南开发126道临床问题，涵盖诊断、治疗等关键决策点；采用混合效应逻辑回归分析模型性能差异，并以Likert量表评估高分模型的解释质量。所有测试在2025年4月集中完成，确保版本一致性。

结果显示：

总体性能：OpenEvidence与Microsoft Copilot以119/126(94.4%)的正确率领先，GPT-4o和Gemini 2.5 Pro以117分(92.9%)紧随其后。Scite.ai Plus表现最弱(84.9%)。
分领域表现：所有模型在DFI和SA中表现最佳(多个满分)，但在PJI和VO中普遍出现3-5%的准确率下降，反映复杂感染管理的挑战性。
统计对比：以OpenEvidence为参照，Scite.ai Plus等5款模型显著劣势(OR 0.08-0.11, P<0.05)，而GPT-4o等9款未显示统计学差异。
解释质量：Top4模型在6分制Likert评估中中位数达6分(IQR 6-6)，但Gemini 2.5 Pro在VO领域出现更大幅度的准确性波动。

讨论部分指出三大核心发现：

专业模型优势：医疗专用系统OpenEvidence凭借实时文献检索机制(RAG)显著减少"幻觉"，其94.4%的准确率甚至超过USMLE(美国医师执照考试)90%的基准线。
通用模型局限：尽管GPT-4o等百亿参数模型展现强大推理能力，但缺乏透明参考文献支持，在证据等级较低的临床问题上(如吸烟作为FRI风险因素)易犯常识性错误。
临床转化壁垒：现有LLMs在结构化考试中表现良好，但面对真实世界复杂病例时，其性能可能下降20-30%，亟需结合电子病历(EHR)系统构建多重校验机制。

该研究首次建立了OAIs领域LLMs的效能排行榜，证实整合最新医学证据的专用模型更具临床实用价值。作者建议未来开发应聚焦三个方向：嵌入医院信息系统实现实时数据交互、建立语义熵置信度阈值阻断低质量输出、通过多模型协同审计提升决策安全性。这些发现为AI辅助感染病诊疗的规范化应用奠定了重要基础，尤其对医疗资源匮乏地区的分级诊疗具有特殊意义。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号