ChatGPT-4.0与DeepSeek-R1在儿童眼科领域的AI对决:性能差异与临床启示

【字体: 时间:2025年08月11日 来源:Stress 2.6

编辑推荐:

  为解决大型语言模型(LLMs)在儿科眼科临床决策中的可靠性问题,研究人员开展了一项对比研究,评估ChatGPT-4.0和DeepSeek-R1对44道多选题的应答表现。结果显示DeepSeek-R1以93%的准确率显著优于ChatGPT-4.0(82%),尤其在斜视(strabismus)等亚专科表现突出。这项研究为AI辅助儿童眼科诊疗的模型优化提供了重要参考。

  

当人工智能遇上儿童眼科,两大语言模型展开了一场精彩的能力比拼。这项研究精心挑选了44道涵盖斜视(strabismus)等儿科眼科亚专科的多选题,让ChatGPT-4.0和DeepSeek-R1同台竞技。结果令人惊讶:DeepSeek-R1以93%的整体正确率完胜ChatGPT-4.0的82%(p:0.06)。在斜视专项测试中,DeepSeek-R1保持82%的稳定发挥,而ChatGPT-4.0仅达到70%(p:0.50);在其他亚专科领域,DeepSeek-R1更是创下100%的完美记录,远超对手的89%(p:0.25)。这些数据不仅揭示了不同模型在专业医学领域的性能差异,更暗示着未来AI辅助诊疗的巨大潜力。研究者特别指出,针对儿童眼科的特殊性,大型语言模型(LLMs)仍需进一步优化,才能真正成为临床医生的得力助手。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号