ChatGPT-4.0与DeepSeek-R1在儿童眼科领域的AI对决：性能差异与临床启示

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月11日 来源：Stress 2.6

编辑推荐：

　　为解决大型语言模型（LLMs）在儿科眼科临床决策中的可靠性问题，研究人员开展了一项对比研究，评估ChatGPT-4.0和DeepSeek-R1对44道多选题的应答表现。结果显示DeepSeek-R1以93%的准确率显著优于ChatGPT-4.0（82%），尤其在斜视(strabismus)等亚专科表现突出。这项研究为AI辅助儿童眼科诊疗的模型优化提供了重要参考。

当人工智能遇上儿童眼科，两大语言模型展开了一场精彩的能力比拼。这项研究精心挑选了44道涵盖斜视(strabismus)等儿科眼科亚专科的多选题，让ChatGPT-4.0和DeepSeek-R1同台竞技。结果令人惊讶：DeepSeek-R1以93%的整体正确率完胜ChatGPT-4.0的82%（p:0.06）。在斜视专项测试中，DeepSeek-R1保持82%的稳定发挥，而ChatGPT-4.0仅达到70%（p:0.50）；在其他亚专科领域，DeepSeek-R1更是创下100%的完美记录，远超对手的89%（p:0.25）。这些数据不仅揭示了不同模型在专业医学领域的性能差异，更暗示着未来AI辅助诊疗的巨大潜力。研究者特别指出，针对儿童眼科的特殊性，大型语言模型(LLMs)仍需进一步优化，才能真正成为临床医生的得力助手。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号