通过“少量样本”提示提升ChatGPT和DeepSeek在CAD-RADS? 2.0分类任务中的性能

《Journal of Computer Assisted Tomography》:Enhancing the CAD-RADS? 2.0 Category Assignment Performance of ChatGPT and DeepSeek Through “Few-shot” Prompting

【字体: 时间:2025年09月29日 来源:Journal of Computer Assisted Tomography 1.3

编辑推荐:

  本研究评估少样本提示对ChatGPT和DeepSeek-R1在CAD-RADS? 2.0分类中的效果,通过MIMIC-IV数据库开发提示框架,结果显示少样本提示显著提高准确率至98%和93%,消除幻觉,Kappa值接近1,表明有效提升模型临床实用性。

  

目的:

评估少量样本提示(few-shot prompting)是否能够提高两种流行的大型语言模型(ChatGPT v1和DeepSeek-R1)在分配冠状动脉疾病报告和数据系统(CAD-RADS? 2.0)分类时的性能。

方法:

基于CAD-RADS? 2.0框架,使用MIMIC-IV数据库中的20份报告开发了一种详细的少量样本提示方法。随后,通过这些模型的用户界面,使用零样本提示(zero-shot prompt)和少量样本提示对同一数据库中的100份报告进行了分类。通过将模型的分类结果与参考放射科医生的分类结果进行比较来评估模型的准确性,包括狭窄类别和修饰符。为了评估重现性,使用相同的少量样本提示对50份报告进行了重新分类。统计分析采用了McNemar检验和Cohen kappa系数。

结果:

使用零样本提示时,两种模型的准确性都很低(ChatGPT:14%,DeepSeek:8%),正确的分类几乎仅出现在CAD-RADS 0级病例中。错误(hallucinations)频繁发生(ChatGPT:19%,DeepSeek:54%)。少量样本提示显著提高了模型的准确性,ChatGPT的准确率达到了98%,DeepSeek的准确率为93%(两者均P<0.001),并且消除了错误。模型生成的分类结果与放射科医生分配的分类结果之间的Kappa值为:ChatGPT为0.979(0.950, 1.000)(P<0.001),DeepSeek为0.916(0.859, 0.973)(P<0.001),表明两种模型的分类结果几乎完全一致,且模型之间的差异不显著(P=0.180)。重现性分析显示,ChatGPT的Kappa值为0.957(0.900, 1.000)(P<0.001),DeepSeek的Kappa值为0.873 [0.779, 0.967](P<0.001),表明重复分类结果之间几乎完全一致且一致性很强,模型之间的差异也不显著(P=0.125)。

结论:

少量样本提示显著提高了大型语言模型在分配CAD-RADS? 2.0分类时的准确性,这表明这些模型具有临床应用的潜力,并有助于系统的推广。

通俗语言总结:本研究探讨了少量样本提示是否能够提高ChatGPT和DeepSeek两种大型语言模型使用CAD-RADS? 2.0对冠状动脉疾病进行分类的准确性。最初,两种模型在零样本提示下的准确性都很低,但少量样本提示显著将ChatGPT的准确性提高到了98%,DeepSeek的准确性提高到了93%,同时减少了被称为“错误”的情况。统计分析显示,模型分类结果与放射科医生的分类结果几乎完全一致,这表明少量样本提示可以提高模型在临床环境中的性能。这一改进表明这些模型有可能被用于医疗系统中,以实现更准确的疾病分类。

本文文本由机器生成,可能存在不准确之处。常见问题解答

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号