评估大型语言模型在前列腺癌管理中的临床能力：DeepSeek-R1与ChatGPT的对比研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年10月17日 来源：Annals of Surgical Oncology 3.5

编辑推荐：

　　本研究对比了DeepSeek-R1和ChatGPT系列模型在前列腺癌临床决策中的表现，发现R1在事实准确性（96.6%）显著优于其他模型，而o3在流程清晰度和响应流畅度上更优，但两者均需人类监督以提升术语精准度和逻辑推理。

摘要

背景

大型语言模型（LLMs）在医学应用中取得了显著进展，但它们在特定临床任务中的表现仍需进一步研究。前列腺癌是一种需要基于指南进行管理的复杂恶性肿瘤，为评估人工智能（AI）辅助决策提供了理想的测试平台。本研究比较了DeepSeek-R1和ChatGPT系列模型在前列腺癌诊断和治疗方面的临床准确性、推理能力和语言质量。

方法

本研究构建了一个包含98道来自MedQA、MedMCQA和中国国家医学执照考试的前列腺癌选择题的数据集，并结合了三个真实临床案例。五个大型语言模型（DeepSeek-V3、DeepSeek-R1、ChatGPT-4o、-o3、-o4-mini）生成了相应的回答，并在三次独立测试中评估了其准确性。在基于案例的模拟中，仅将DeepSeek-R1和ChatGPT-o3与实际工作的泌尿科医生进行了对比。使用临床决策质量评估量表（CDQAS）从四个方面对模型输出进行了评估：可读性、医学知识准确性、诊断测试的适当性以及逻辑连贯性。评分工作由资深泌尿肿瘤专家盲法完成。统计分析使用了GraphPad Prism v10.1.2软件（美国马萨诸塞州波士顿市）进行单因素方差分析（one-way ANOVA）。

结果

DeepSeek-R1在选择题任务中的准确率最高（96.60%），显著优于其他模型（p < 0.05至<0.0001）。在模拟案例评估中，DeepSeek-R1和ChatGPT-o3在整体可读性和诊断适当性方面与医生的表现相当。DeepSeek-R1在遵循指南和基于证据的推理方面表现更佳，而ChatGPT-o3则在工作流程清晰度、问题排序和回答流畅性方面具有优势。不过，ChatGPT-o3产生的明显错误较少。人类临床医生在术语精确性和逻辑推理方面仍具有优势。

结论

DeepSeek-R1和ChatGPT-o3在前列腺癌临床决策中表现出互补的优势：DeepSeek-R1侧重事实准确性，而ChatGPT-o3则在表达清晰度方面表现突出。尽管这两种模型在结构化评估中已接近人类水平，但人类的监督和持续的领域特定优化对于它们安全有效地融入临床工作流程仍然至关重要。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号