
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型在骨关节感染临床病例解决中的效能评估与比较研究
【字体: 大 中 小 】 时间:2025年06月17日 来源:Mayo Clinic Proceedings: Digital Health
编辑推荐:
本研究针对骨关节感染(OAI)临床决策中专家短缺的难题,系统评估了15种大型语言模型(LLM)在糖尿病足感染(DFI)、假体周围感染(PJI)等5类OAI病例中的表现。结果显示OpenEvidence与Microsoft Copilot以94.4%准确率并列第一,GPT-4o和Gemini 2.5 Pro紧随其后。该研究为AI辅助复杂感染性疾病诊疗提供了实证依据,凸显医疗专用模型在循证决策中的优势。
骨关节感染(Osteoarticular infections, OAIs)正成为现代医疗体系的重大挑战。随着全球人口老龄化和关节置换手术量激增,假体周围感染(PJI)发生率已达1%-2%,预计到2030年美国每年相关医疗费用将突破18.5亿美元。这类感染需要长期抗生素治疗、多次手术和复杂康复,但全球范围内精通OAIs管理的专科医生严重短缺,导致诊疗质量存在显著地域差异。
在此背景下,Mayo Clinic的研究团队开展了一项开创性研究,系统评估15种大型语言模型(Large Language Models, LLMs)在解决OAIs临床病例中的表现。研究聚焦糖尿病足感染(DFI)、骨折相关感染(FRI)、假体周围感染(PJI)、化脓性关节炎(SA)和脊柱骨髓炎(VO)五大临床场景,通过126道基于指南的标准化问题,检验AI模型在诊断、治疗和管理策略上的准确性。论文发表于《Mayo Clinic Proceedings: Digital Health》,为AI在感染病学领域的应用提供了重要循证依据。
研究团队采用多阶段方法:首先系统筛选包含通用型(如GPT-4o、Gemini 2.5 Pro)和医疗专用型(如OpenEvidence、AMBOSS GPT)的15种LLMs;基于国际指南开发126道临床问题,涵盖诊断、治疗等关键决策点;采用混合效应逻辑回归分析模型性能差异,并以Likert量表评估高分模型的解释质量。所有测试在2025年4月集中完成,确保版本一致性。
结果显示:
讨论部分指出三大核心发现:
该研究首次建立了OAIs领域LLMs的效能排行榜,证实整合最新医学证据的专用模型更具临床实用价值。作者建议未来开发应聚焦三个方向:嵌入医院信息系统实现实时数据交互、建立语义熵置信度阈值阻断低质量输出、通过多模型协同审计提升决策安全性。这些发现为AI辅助感染病诊疗的规范化应用奠定了重要基础,尤其对医疗资源匮乏地区的分级诊疗具有特殊意义。
生物通微信公众号
知名企业招聘