
-
生物通官微
陪你抓住生命科技
跳动的脉搏
ChatGPT-4.0与DeepSeek-R1在儿童眼科领域的AI对决:性能差异与临床启示
【字体: 大 中 小 】 时间:2025年08月11日 来源:Stress 2.6
编辑推荐:
为解决大型语言模型(LLMs)在儿科眼科临床决策中的可靠性问题,研究人员开展了一项对比研究,评估ChatGPT-4.0和DeepSeek-R1对44道多选题的应答表现。结果显示DeepSeek-R1以93%的准确率显著优于ChatGPT-4.0(82%),尤其在斜视(strabismus)等亚专科表现突出。这项研究为AI辅助儿童眼科诊疗的模型优化提供了重要参考。
当人工智能遇上儿童眼科,两大语言模型展开了一场精彩的能力比拼。这项研究精心挑选了44道涵盖斜视(strabismus)等儿科眼科亚专科的多选题,让ChatGPT-4.0和DeepSeek-R1同台竞技。结果令人惊讶:DeepSeek-R1以93%的整体正确率完胜ChatGPT-4.0的82%(p:0.06)。在斜视专项测试中,DeepSeek-R1保持82%的稳定发挥,而ChatGPT-4.0仅达到70%(p:0.50);在其他亚专科领域,DeepSeek-R1更是创下100%的完美记录,远超对手的89%(p:0.25)。这些数据不仅揭示了不同模型在专业医学领域的性能差异,更暗示着未来AI辅助诊疗的巨大潜力。研究者特别指出,针对儿童眼科的特殊性,大型语言模型(LLMs)仍需进一步优化,才能真正成为临床医生的得力助手。
生物通微信公众号
知名企业招聘