
-
生物通官微
陪你抓住生命科技
跳动的脉搏
ChatGPT与DeepSeek在头颈癌分期及治疗规划中的性能对比:基于NCCN指南的前瞻性研究
【字体: 大 中 小 】 时间:2025年06月18日 来源:European Archives of Oto-Rhino-Laryngology 1.9
编辑推荐:
这篇前瞻性模拟研究对比了ChatGPT (o1, 2023)和DeepSeek (V3, 2024)在头颈癌分期及治疗规划中的表现。研究基于NCCN? 指南设计50例临床情境,结果显示DeepSeek在治疗推荐准确性上显著优于ChatGPT(p=0.04),而两者分期能力相当(p=0.83)。尽管AI工具不能替代多学科肿瘤委员会(MDT),但可优化临床流程,建议开发机构定制化本地大语言模型(LLM)。
头颈癌(HNC)因解剖复杂性和生物学异质性对精准分期和治疗提出挑战。随着自然语言处理(NLP)技术发展,ChatGPT和采用混合专家架构(MoE)的DeepSeek等大语言模型(LLM)在临床决策中展现出潜力。既往研究多聚焦单一模型评估,而本研究首次直接对比两者在头颈癌领域的表现。
研究于2025年3月开展,由两位耳鼻喉科专家依据NCCN?
指南2.2025版设计50例涵盖11种头颈癌亚型的标准化病例。模型需依次完成TNM分期(AJCC第8版)和治疗推荐,结果由专家盲评并分为"完全正确"、"部分正确"或"错误"。统计采用卡方检验(SPSS 18)。
整体表现:
亚组分析:
DeepSeek V3在治疗规划中的优势可能源于其MoE架构对逻辑任务的优化,而ChatGPT在诊断类任务中表现更优的既往结论(如儿科研究达92.8%准确率)提示模型性能存在领域特异性。值得注意的是:
研究受限于:① 模拟病例数量;② 未评估多模态数据输入;③ 未测试模型应答稳定性;④ 评审者间一致性未量化。
DeepSeek V3展现了作为头颈癌辅助决策工具的潜力,但临床落地需结合安全架构设计与持续性能优化。未来应聚焦领域定制化LLM开发,平衡技术创新与医疗安全需求。
(注:全文严格依据原文数据及结论,未新增非文献支持信息)
生物通微信公众号
知名企业招聘