《Journal Fran?ais d'Ophtalmologie》:Comparative performance of ChatGPT o3-mini-high and DeepSeek-R1 in ophthalmology: An evaluation of diagnostic reasoning and case-based problem solving
编辑推荐:
人工智能辅助诊断在眼科领域的应用比较研究。通过对比ChatGPT o3mini-high与DeepSeek-R1在55个眼科案例中的诊断准确率(前者80% vs 后者54.5%)及专家评分(前者4.5分 vs 后者2.5分),验证前者在复杂推理和诊断能力上的优势。
G. Karata?|F. K?r?k|M.E. Karata?|A. ?ak?r|H. ?zdemir
土耳其伊斯坦布尔Cemil Ta?c?o?lu市医院眼科系
摘要
目的
比较ChatGPT o3-mini-high和DeepSeek-R1在处理包含文本问题的眼科病例时的诊断推理能力和基于案例的问题解决能力。
方法
向两个具有推理能力的大型语言模型(LLM)ChatGPT o3-mini-high和DeepSeek-R1提出了55个来自九个眼科亚专业的基于文本的案例分析问题。对于每个案例,都应用了Elstein描述的多组分诊断推理方法。记录了模型的总体诊断准确性、诊断一致性、推理能力、亚专业特定表现以及请求额外提示的倾向。随后,两位眼科专家使用五点评分量表(1=较差;5=优秀)独立评估了每个模型对所有问题的诊断推理能力。
结果
ChatGPT o3-mini-high正确回答了80%的问题,而DeepSeek-R1的正确回答率为54.5%(P<0.001),Cohen's kappa系数为0.462。ChatGPT o3-mini-high在较少的问题上请求了额外提示(2次对比12次;P<0.013)。对于这两个LLM来说,视网膜/玻璃体相关病例的准确率最高,而青光眼相关病例的准确率最低。使用GQS评估Elstein的医学推理组件时,ChatGPT o3-mini-high的中位得分为4.5(IQR 2.5–5.0),DeepSeek-R1的中位得分为2.5(IQR 1.0–4.5;P<0.001)。加权kappa值为0.407,表明两个模型之间存在中等程度的一致性。
结论
本研究表明,与DeepSeek-R1相比,ChatGPT o3-mini-high在眼科病例分析中表现出更高的诊断准确性和推理能力。
引言
基于人工智能(AI)的大型语言模型(LLM)由于其在获取和合成信息方面的变革潜力,在各个专业领域引起了广泛关注[1]。特别是像ChatGPT这样的具有高级推理能力的LLM,采用了思维链机制,能够将复杂任务分解为连续的、逻辑清晰的步骤,从而模拟人类思维过程的某些方面[2]。这些能力表明LLM能够在从数学问题解决到科学推理的各种领域生成类似人类的响应和决策。最近,由中国公司(杭州DeepSeek人工智能基础技术研究有限公司)开发的DeepSeek-R1已成为一种具有竞争力且成本效益高的推理型LLM。DeepSeek-R1的发布成本显著较低,其性能水平据称可与ChatGPT相媲美[3]。然而,据我们所知,DeepSeek-R1在医学应用中的表现,尤其是在眼科相关问题上的表现尚不清楚。
尽管已有几项研究评估了LLM对眼科相关问题的回答,但据我们所知,还没有研究评估过具有推理能力的模型(即ChatGPT o3-mini-high和DeepSeek-R1)在基于案例的眼科场景中的诊断推理能力[4],[5],[6]。
本研究的目的是根据Elstein的医学推理组件,由眼科专家评估ChatGPT o3-mini-high和DeepSeek-R1的基于案例的问题解决能力和诊断推理能力,这些专家同时也作为参考标准[7]。
方法
方法
使用从美国眼科学会(AAO)2023–2024年基础与临床科学课程(BCSC)教科书系列中提取的基于案例的问题来评估ChatGPT o3-mini-high和DeepSeek-R1的诊断性能[8]。仅选择了没有图片的基于案例的情景;直接评估事实知识或包含图片的问题被排除在外。此外,还去除了预先指定的选择选项,以避免对LLM产生潜在的偏见。
ChatGPT o3-mini-high
ChatGPT o3-mini-high与DeepSeek-R1的诊断性能比较
本研究共包含了55个基于文本的问题。这些问题是根据案例情景、诊断评估步骤和治疗算法来选择的,以便评估模型的推理能力和诊断性能。表2显示了这55个问题在九个不同眼科亚专业类别中的分布情况。
ChatGPT o3-mini-high模型正确回答了80%(44/55)的问题,而DeepSeek-R1模型的正确回答率为
讨论
尽管像ChatGPT o3-mini-high和DeepSeek-R1这样的具有集成推理能力的高级LLM最近才被引入,并因其支持类似人类决策的潜力而受到关注,但它们在医学场景中的有效性仍很大程度上未知。据我们所知,这是首次使用没有预设答案选项的基于案例的情景对这些模型进行全面的眼科评估。研究结果表明
伦理批准
本研究不涉及生物体(如人类或动物受试者),因此不需要伦理委员会的批准。
作者贡献
作者在本研究中的角色如下:
•撰写:Gamze Karata?, Furkan K?r?k 和 Mehmet Egemen Karata?;
•数据收集和处理:Gamze Karata? 和 Mehmet Egemen Karata?;
•检查和数据共享:Gamze Karata?, Furkan K?r?k 和 Mehmet Egemen Karata?;
•分析和解释:Gamze Karata?, Furkan K?r?k, Ak?n ?ak?r 和 Hakan ?zdemir。