ChatGPT-4o与DeepSeek-V3在头颈肿瘤学领域的比较评估

【字体: 时间:2025年10月30日 来源:Acta Oto-Laryngologica 1

编辑推荐:

  本研究评估了ChatGPT-4o和DeepSeek-V3在头颈癌症(HNC)临床问题回答中的表现,通过双盲评分发现两者综合准确率分别为92.2%和89.6%,但统计一致性较低(Cohen’s κ=0.12)。在治疗和恢复等分类中模型存在差异但未达显著水平,重感性均超过96%。结论指出大模型在HNC决策和患者教育中有潜力,但需注意局限性。

  

摘要

背景

大型语言模型(LLMs)在临床决策和患者教育中得到了越来越多的应用,包括在头颈癌(HNC)等复杂疾病领域。

目的

评估ChatGPT-4o和DeepSeek-V3在回答与头颈癌相关的临床问题时的表现。

方法

向这两种模型分别提交了154个涵盖六个临床类别的问题。头颈外科医生使用四点评分标准独立对它们的回答进行了评分。评估了准确性、重复性和模型间的一致性。

结果

ChatGPT-4o和DeepSeek-V3分别在92.2%和89.6%的案例中提供了“全面/正确的”答案(p = 0.42)。两种模型的回答在85.1%的案例中评分相同;然而,它们之间的统计一致性较低(Cohen’s κ = 0.12;ICC = 0.21,p = 0.006)。DeepSeek-V3在“治疗”类别的表现优于ChatGPT(96.3% vs 81.5%,p = 0.08),而ChatGPT在“恢复、并发症和随访”类别表现更佳(95.0% vs 82.5%,p = 0.08);但这些差异并未达到统计学显著性。两种模型的重复性都很高(ChatGPT-4o:96.1%;DeepSeek-V3:96.8%)。

结论

这两种模型在与头颈癌相关的查询中表现出较高的准确性和一致性。

意义

在充分考虑其固有局限性的前提下,大型语言模型作为临床决策和患者教育的可靠工具具有巨大潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号