ChatGPT与DeepSeek在头颈癌分期及治疗规划中的性能对比:基于NCCN指南的前瞻性研究

【字体: 时间:2025年06月18日 来源:European Archives of Oto-Rhino-Laryngology 1.9

编辑推荐:

  这篇前瞻性模拟研究对比了ChatGPT (o1, 2023)和DeepSeek (V3, 2024)在头颈癌分期及治疗规划中的表现。研究基于NCCN? 指南设计50例临床情境,结果显示DeepSeek在治疗推荐准确性上显著优于ChatGPT(p=0.04),而两者分期能力相当(p=0.83)。尽管AI工具不能替代多学科肿瘤委员会(MDT),但可优化临床流程,建议开发机构定制化本地大语言模型(LLM)。

  

引言

头颈癌(HNC)因解剖复杂性和生物学异质性对精准分期和治疗提出挑战。随着自然语言处理(NLP)技术发展,ChatGPT和采用混合专家架构(MoE)的DeepSeek等大语言模型(LLM)在临床决策中展现出潜力。既往研究多聚焦单一模型评估,而本研究首次直接对比两者在头颈癌领域的表现。

材料与方法

研究于2025年3月开展,由两位耳鼻喉科专家依据NCCN?
指南2.2025版设计50例涵盖11种头颈癌亚型的标准化病例。模型需依次完成TNM分期(AJCC第8版)和治疗推荐,结果由专家盲评并分为"完全正确"、"部分正确"或"错误"。统计采用卡方检验(SPSS 18)。

结果

整体表现

  • 分期准确性:ChatGPT与DeepSeek分别为60%和62%(p=0.83),但错误案例重叠率仅50%,提示模型推理模式存在差异。
  • 治疗推荐:DeepSeek以80%完全正确率显著优于ChatGPT的62%(p=0.04),且两者均未产生错误方案。

亚组分析

  • 常见癌种:在占病例54%的口腔癌(12例)和喉癌(15例)中,两者差异无统计学意义(p>0.4)。
  • 罕见癌种:对于8例鼻腔鼻窦癌、黏膜黑色素瘤等病例,DeepSeek治疗完全正确率100%,显著优于ChatGPT的37.5%(p=0.02)。

讨论

DeepSeek V3在治疗规划中的优势可能源于其MoE架构对逻辑任务的优化,而ChatGPT在诊断类任务中表现更优的既往结论(如儿科研究达92.8%准确率)提示模型性能存在领域特异性。值得注意的是:

  1. 临床整合价值:AI可缩短MDT讨论时间,但40%的分期错误率警示需严格人工审核。
  2. 数据安全:公开模型存在隐私风险,支持Buhr等学者提出的本地化LLM开发建议。

局限性

研究受限于:① 模拟病例数量;② 未评估多模态数据输入;③ 未测试模型应答稳定性;④ 评审者间一致性未量化。

结论

DeepSeek V3展现了作为头颈癌辅助决策工具的潜力,但临床落地需结合安全架构设计与持续性能优化。未来应聚焦领域定制化LLM开发,平衡技术创新与医疗安全需求。

(注:全文严格依据原文数据及结论,未新增非文献支持信息)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号