ChatGPT与DeepSeek在头颈癌分期及治疗规划中的性能对比：基于NCCN指南的前瞻性研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月18日 来源：European Archives of Oto-Rhino-Laryngology 1.9

编辑推荐：

　　这篇前瞻性模拟研究对比了ChatGPT (o1, 2023)和DeepSeek (V3, 2024)在头颈癌分期及治疗规划中的表现。研究基于NCCN? 指南设计50例临床情境，结果显示DeepSeek在治疗推荐准确性上显著优于ChatGPT（p=0.04），而两者分期能力相当（p=0.83）。尽管AI工具不能替代多学科肿瘤委员会（MDT），但可优化临床流程，建议开发机构定制化本地大语言模型（LLM）。

引言

头颈癌（HNC）因解剖复杂性和生物学异质性对精准分期和治疗提出挑战。随着自然语言处理（NLP）技术发展，ChatGPT和采用混合专家架构（MoE）的DeepSeek等大语言模型（LLM）在临床决策中展现出潜力。既往研究多聚焦单一模型评估，而本研究首次直接对比两者在头颈癌领域的表现。

材料与方法

研究于2025年3月开展，由两位耳鼻喉科专家依据NCCN^?
指南2.2025版设计50例涵盖11种头颈癌亚型的标准化病例。模型需依次完成TNM分期（AJCC第8版）和治疗推荐，结果由专家盲评并分为"完全正确"、"部分正确"或"错误"。统计采用卡方检验（SPSS 18）。

结果

整体表现：

分期准确性：ChatGPT与DeepSeek分别为60%和62%（p=0.83），但错误案例重叠率仅50%，提示模型推理模式存在差异。
治疗推荐：DeepSeek以80%完全正确率显著优于ChatGPT的62%（p=0.04），且两者均未产生错误方案。

亚组分析：

常见癌种：在占病例54%的口腔癌（12例）和喉癌（15例）中，两者差异无统计学意义（p>0.4）。
罕见癌种：对于8例鼻腔鼻窦癌、黏膜黑色素瘤等病例，DeepSeek治疗完全正确率100%，显著优于ChatGPT的37.5%（p=0.02）。

讨论

DeepSeek V3在治疗规划中的优势可能源于其MoE架构对逻辑任务的优化，而ChatGPT在诊断类任务中表现更优的既往结论（如儿科研究达92.8%准确率）提示模型性能存在领域特异性。值得注意的是：

临床整合价值：AI可缩短MDT讨论时间，但40%的分期错误率警示需严格人工审核。
数据安全：公开模型存在隐私风险，支持Buhr等学者提出的本地化LLM开发建议。

局限性

研究受限于：① 模拟病例数量；② 未评估多模态数据输入；③ 未测试模型应答稳定性；④ 评审者间一致性未量化。

结论

DeepSeek V3展现了作为头颈癌辅助决策工具的潜力，但临床落地需结合安全架构设计与持续性能优化。未来应聚焦领域定制化LLM开发，平衡技术创新与医疗安全需求。

（注：全文严格依据原文数据及结论，未新增非文献支持信息）

热点排行

新闻专题

联系信箱：

粤ICP备09063491号