深度探索大语言模型(DeepSeek)在医疗任务与临床推理中的比较基准测试:潜力与挑战并存

【字体: 时间:2025年04月24日 来源:Nature Medicine 58.7

编辑推荐:

  为评估大语言模型(LLM)在医疗领域的能力,研究人员对 DeepSeek - R1、ChatGPT - o1 和 Llama 3.1 - 405B 进行研究。结果显示,DeepSeek - R1 在多项医疗任务表现良好但也有不足。该研究为 LLM 在医疗领域应用提供参考。

  DeepSeek 是一种新推出的旨在增强推理能力的大语言模型(LLM),但其在医学领域的能力尚未得到评估。本研究评估了三种大语言模型 ——DeepSeek - R1、ChatGPT - o1 和 Llama 3.1 - 405B,在执行四项不同医疗任务中的能力:回答美国医师执照考试(USMLE)的问题;基于文本的诊断和管理病例进行解读与推理;根据实体瘤疗效评价标准 1.1 版(RECIST 1.1)标准进行肿瘤分类;以及对多种模态的诊断成像报告进行总结。
在 USMLE 测试中,DeepSeek - R1 的表现(准确率 = 0.92)略逊于 ChatGPT - o1(准确率 = 0.95;p = 0.04),但优于 Llama 3.1 - 405B(准确率 = 0.83;p < 10-3)。对于基于文本的病例挑战,DeepSeek - R1 的表现与 ChatGPT - o1 相似(分别使用《新英格兰医学杂志》和 Medicilline 数据库时,准确率为 0.57 对 0.55;p = 0.76 和 0.74 对 0.76;p = 0.06)。在 RECIST 分类方面,DeepSeek - R1 的表现也与 ChatGPT - o1 相似(0.73 对 0.81;p = 0.10)。DeepSeek 给出的诊断推理步骤被认为比 ChatGPT 和 Llama 3.1 - 405B 更准确(平均李克特量表得分分别为 3.61、3.22 和 3.13,p = 0.005 和 p < 10?3)。然而,DeepSeek - R1 提供的成像报告总结在整体质量上低于 ChatGPT - o1(5 分李克特量表得分:4.5 对 4.8;p < 10?3)。这项研究凸显了 DeepSeek - R1 大语言模型在医学应用方面的潜力,但也强调了需要改进的地方。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号