ChatGPT-4o与DeepSeek-V3在头颈肿瘤学领域的比较评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年10月30日 来源：Acta Oto-Laryngologica 1

编辑推荐：

　　本研究评估了ChatGPT-4o和DeepSeek-V3在头颈癌症（HNC）临床问题回答中的表现，通过双盲评分发现两者综合准确率分别为92.2%和89.6%，但统计一致性较低（Cohen’s κ=0.12）。在治疗和恢复等分类中模型存在差异但未达显著水平，重感性均超过96%。结论指出大模型在HNC决策和患者教育中有潜力，但需注意局限性。

摘要

背景

大型语言模型（LLMs）在临床决策和患者教育中得到了越来越多的应用，包括在头颈癌（HNC）等复杂疾病领域。

目的

评估ChatGPT-4o和DeepSeek-V3在回答与头颈癌相关的临床问题时的表现。

方法

向这两种模型分别提交了154个涵盖六个临床类别的问题。头颈外科医生使用四点评分标准独立对它们的回答进行了评分。评估了准确性、重复性和模型间的一致性。

结果

ChatGPT-4o和DeepSeek-V3分别在92.2%和89.6%的案例中提供了“全面/正确的”答案（p = 0.42）。两种模型的回答在85.1%的案例中评分相同；然而，它们之间的统计一致性较低（Cohen’s κ = 0.12；ICC = 0.21，p = 0.006）。DeepSeek-V3在“治疗”类别的表现优于ChatGPT（96.3% vs 81.5%，p = 0.08），而ChatGPT在“恢复、并发症和随访”类别表现更佳（95.0% vs 82.5%，p = 0.08）；但这些差异并未达到统计学显著性。两种模型的重复性都很高（ChatGPT-4o：96.1%；DeepSeek-V3：96.8%）。

结论

这两种模型在与头颈癌相关的查询中表现出较高的准确性和一致性。

意义

在充分考虑其固有局限性的前提下，大型语言模型作为临床决策和患者教育的可靠工具具有巨大潜力。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号