编辑推荐:
为评估 LLMs 在回答自身免疫性疾病(ADs)临床问题的能力,研究人员用 65 个问题测试 ChatGPT 4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro。结果显示三者表现超临床医生,Claude 3.5 Sonnet 尤为突出,为 ADs 诊疗提供新方向。
自身免疫性疾病(ADs)如系统性红斑狼疮(SLE)、类风湿关节炎(RA)等,因早期症状不特异、诊断复杂,常导致误诊或漏诊。且患者易依赖网络自行诊断,而网络信息质量参差不齐,可能带来误导。因此,亟需可靠工具辅助医生诊疗及患者获取准确信息。大语言模型(LLMs)作为人工智能的重要突破,在医疗领域展现出知识检索、自然语言交互和报告分析等潜力,但其在 ADs 领域的准确性和全面性仍需深入评估。
为此,南京大学医学院附属南京鼓楼医院的研究人员开展了相关研究,旨在比较 ChatGPT 4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro 这三个 LLMs 在模拟 ADs 临床场景中的表现。研究成果发表在《Scientific Reports》。
研究人员设计了 65 个 ADs 相关问题,涵盖概念、报告解读、诊断、预防和治疗、预后五个领域,包括干燥综合征、系统性红斑狼疮等疾病类型。让三个 LLMs 作答后,由 8 名临床医生从相关性、完整性、准确性、安全性、可读性和简洁性六个维度进行评分。同时,邀请 2 名 senior clinicians 和 2 名 junior clinicians 回答 30 个报告解读问题,与 LLMs 的回答准确率进行对比。
研究结果如下:
准确率比较
在报告解读领域的 30 个问题中,ChatGPT 4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro 的准确率分别为 90%、100% 和 97%,均显著高于 junior doctors(73%、67%)和 senior doctors(87%、87%),其中 Claude 3.5 Sonnet 表现尤为突出。
不同质量维度评分
三个 LLMs 在回答 ADs 相关问题时,在完整性、可读性和简洁性维度差异显著。Claude 3.5 Sonnet 在这三个维度及准确性维度得分最高,分别为 8.95±0.46、9.02±0.39、8.83±0.31、8.97±0.46。在相关性和安全性维度,三者得分相近且较高。
不同类型问题评分
在五个问题领域中,Claude 3.5 Sonnet 在报告解读领域平均得分最高(9.01±0.21),在诊断、预防和治疗领域得分也优于部分模型。ChatGPT 4o 在概念领域得分最高(9.06±0.16),Gemini 1.5 Pro 在预后领域得分最高(8.67±0.04)。
研究结论表明,LLMs 能够特异性且安全地回答 ADs 相关问题,三个 LLMs 的表现均显著优于 junior 和 senior 医生。Claude 3.5 Sonnet 在提供全面、准确和结构良好的 ADs 临床问题回答方面表现卓越,其解读和分析复杂临床问题的能力甚至超越临床医生,展现出在辅助 ADs 诊断、治疗和管理方面的巨大潜力。
讨论指出,LLMs 可整合碎片化医疗信息,辅助医生缩小诊断范围,提升患者对疾病的准确理解,减少网络搜索带来的误导风险。尽管研究存在一定局限性,如基于有限问题样本、聚焦中文交互等,但该研究为 LLMs 在 ADs 领域的应用提供了重要参考,未来可进一步开发结合专家策划医学知识库的混合模型,扩大评估范围,以推动 LLMs 在全球医疗中成为可靠工具,提升诊断准确性和医疗服务质量。