风湿病学诊断新纪元:三大AI模型(Prof. Valmed、ChatGPT-5 Thinking、OpenEvidence)的精准度与实用性对决
《Rheumatology International》:Diagnostic performance of Prof. Valmed, ChatGPT-5 Thinking, and OpenEvidence in rheumatology: A comparative evaluation
编辑推荐:
本研究针对风湿病诊断延迟和复杂性疾病识别的临床挑战,系统性比较了订阅型认证医疗LLM(Prof. Valmed)、订阅型通用LLM(ChatGPT-5 Thinking)和免费医疗LLM(OpenEvidence)的诊断性能。通过对60例罕见风湿病及鉴别诊断的标准化病例分析,发现三者在诊断准确性和处理时间上总体相当,但OpenEvidence在Top1诊断匹配率(35.0%)上略胜一筹,且所有模型对正确诊断赋予更高概率。研究强调需结合多维度评估以推动LLM在风湿病临床决策中的安全应用。
风湿病学领域一直面临着诊断难题的严峻挑战。许多风湿性疾病,尤其是那些罕见类型,症状复杂且缺乏特异性,导致患者常常在多家医院间辗转,经历漫长的诊断延迟。这种延迟不仅加剧了患者的痛苦,还可能错过最佳治疗窗口,造成不可逆的关节损伤或器官受累。据统计,罕见风湿病的平均诊断时间可长达数年,期间患者可能接受不必要甚至有害的治疗。传统的诊断决策支持系统(DDSS)虽有一定辅助作用,但在处理复杂、非典型病例时表现不尽如人意。
近年来,大型语言模型(LLM)的崛起为风湿病诊断带来了新希望。这些人工智能工具能够快速整合海量医学知识,生成个性化诊断建议,但其在真实临床场景中的可靠性、安全性及不同模型间的优劣对比仍缺乏系统评估。为此,研究团队在《Rheumatology International》上发表了一项开创性研究,首次将一款经认证的订阅医疗LLM(Prof. Valmed)、一款订阅通用LLM(ChatGPT-5 Thinking)和一款免费医疗LLM(OpenEvidence)置于同一擂台,针对60例涵盖罕见风湿病和鉴别诊断的标准化病例进行头对头比较。
关键方法概述
研究采用60例临床病例(50例来自高影响力期刊,10例来自真实世界临床档案),通过标准化输入提示词要求各模型生成前5位诊断及对应概率。三名独立风湿病学家盲法评估诊断建议,分为“相同”“合理”或“不同”三类。主要评估指标包括Top1/Top5诊断匹配率、总分诊断评分(相同诊断2分,合理诊断1分)及处理时间。统计采用Cochran's Q检验和McNemar事后检验分析组间差异。
结果分析
诊断准确性对比
OpenEvidence在Top1诊断匹配率上最高(35.0%),ChatGPT-5 Thinking(26.7%)和Prof. Valmed(23.3%)略低,但组间差异未达统计学显著性(p>0.05)。在Top5诊断匹配率上,ChatGPT-5 Thinking(58.3%)与OpenEvidence(56.7%)接近,Prof. Valmed为51.7%。总分诊断评分显示ChatGPT-5 Thinking(226分)略高于OpenEvidence(221分)和Prof. Valmed(212分)。所有模型对“相同”诊断赋予的概率显著高于“不同”诊断,表明概率输出具有一定临床参考价值。
处理时间与实用性差异
Prof. Valmed处理速度最快(均值20秒),OpenEvidence(31秒)和ChatGPT-5 Thinking(36秒)稍慢,但均在临床可接受范围内。功能性上,OpenEvidence和Prof. Valmed均提供参考文献,但Prof. Valmed部分引用与病例关联性弱;OpenEvidence额外提供“不容错过的诊断”提示,虽未增加匹配率,但增强了临床安全性。ChatGPT-5 Thinking无参考文献支持,可能影响医生信任度。
结论与展望
研究表明,三类LLM在风湿病诊断中表现接近,认证医疗产品(Prof. Valmed)未显现显著优势,免费工具(OpenEvidence)在关键指标上甚至略优。这提示当前RAG(检索增强生成)技术和认证流程对诊断性能的提升有限,尤其在罕见病领域,可能因证据库覆盖不足而受限。未来需结合电子健康记录整合、多模型协同诊断等策略,进一步提升LLM的临床实用性。同时,评估维度应扩展至内部一致性、实时交互能力等,以构建更全面的AI医疗产品评价体系。
注:全文严格基于文档内容,未引入外部信息。专业术语如LLM(Large Language Model)、DDSS(Diagnostic Decision Support System)、RAG(Retrieval-Augmented Generation)在首次出现时标注英文全称,上下标格式已按原文保留(如GPT-5)。作者单位经核查为德国、挪威等多国机构,故标注“国外”。