
-
生物通官微
陪你抓住生命科技
跳动的脉搏
ChatGPT-4o与DeepSeek-V3在头颈肿瘤学领域的比较评估
【字体: 大 中 小 】 时间:2025年10月30日 来源:Acta Oto-Laryngologica 1
编辑推荐:
本研究评估了ChatGPT-4o和DeepSeek-V3在头颈癌症(HNC)临床问题回答中的表现,通过双盲评分发现两者综合准确率分别为92.2%和89.6%,但统计一致性较低(Cohen’s κ=0.12)。在治疗和恢复等分类中模型存在差异但未达显著水平,重感性均超过96%。结论指出大模型在HNC决策和患者教育中有潜力,但需注意局限性。
大型语言模型(LLMs)在临床决策和患者教育中得到了越来越多的应用,包括在头颈癌(HNC)等复杂疾病领域。
评估ChatGPT-4o和DeepSeek-V3在回答与头颈癌相关的临床问题时的表现。
向这两种模型分别提交了154个涵盖六个临床类别的问题。头颈外科医生使用四点评分标准独立对它们的回答进行了评分。评估了准确性、重复性和模型间的一致性。
ChatGPT-4o和DeepSeek-V3分别在92.2%和89.6%的案例中提供了“全面/正确的”答案(p = 0.42)。两种模型的回答在85.1%的案例中评分相同;然而,它们之间的统计一致性较低(Cohen’s κ = 0.12;ICC = 0.21,p = 0.006)。DeepSeek-V3在“治疗”类别的表现优于ChatGPT(96.3% vs 81.5%,p = 0.08),而ChatGPT在“恢复、并发症和随访”类别表现更佳(95.0% vs 82.5%,p = 0.08);但这些差异并未达到统计学显著性。两种模型的重复性都很高(ChatGPT-4o:96.1%;DeepSeek-V3:96.8%)。
这两种模型在与头颈癌相关的查询中表现出较高的准确性和一致性。
在充分考虑其固有局限性的前提下,大型语言模型作为临床决策和患者教育的可靠工具具有巨大潜力。
生物通微信公众号
知名企业招聘