利用ChatGPT-4o赋能放射科医生:在心脏疾病病例中对比评估大型语言模型与放射科医生的表现

【字体: 时间:2025年10月27日 来源:Journal of Thoracic Imaging 1.9

编辑推荐:

  本研究评估了12种大型语言模型(LLMs)、1位心脏放射科医生和3位普通放射科医生在心脏影像诊断中的准确性及鉴别诊断能力,并考察ChatGPT-4o辅助的影响。结果显示,普通放射科医生在ChatGPT-4o辅助下准确率显著提升(51.3%→63.8%),心脏放射科医生提升幅度较小(72.5%→78.8%)。LLMs中Claude 3 Opus表现最佳(81.3%)。辅助后所有放射科医生的鉴别诊断评分均显著提高(P≤0.05),提示ChatGPT-4o可作为心脏影像诊断的辅助工具,但需进一步评估临床整合。

  ```section>

目的:

本研究评估了12个大型语言模型(LLMs)、1名心脏放射科医生和3名普通放射科医生在心脏放射学领域的诊断准确性和鉴别诊断能力。同时,还研究了ChatGPT-4o辅助对放射科医生表现的影响。

材料与方法:

我们从胸腔放射学会网站收集了80个公开的“每月心脏病例”。大型语言模型和放射科医生III仅获得了基于文本的信息,而其他放射科医生则在有无ChatGPT-4o辅助的情况下对病例进行了视觉评估。诊断准确性和鉴别诊断评分(DDx评分)通过χ2、Kruskal-Wallis、Wilcoxon、McNemar和Mann-Whitney U检验进行分析。

结果:

未经辅助的心脏放射科医生的诊断准确率为72.5%,普通放射科医生I的准确率为53.8%,普通放射科医生II的准确率为51.3%。在ChatGPT-4o的辅助下,这些准确率分别提高到了78.8%、70.0%和63.8%。普通放射科医生I和II的准确率提升具有统计学意义(P≤0.006)。所有放射科医生的DDx评分在ChatGPT-4o辅助下均有显著提高(P≤0.05)。值得注意的是,放射科医生I在ChatGPT-4o辅助下的诊断准确率和DDx评分与心脏放射科医生未经辅助时的表现没有显著差异(P>0.05)。

在大型语言模型中,Claude 3 Opus和Claude 3.5 Sonnet的准确率最高(均为81.3%),其次是Claude 3 Sonnet(70.0%)。在DDx评分方面,Claude 3 Opus的表现优于所有模型和放射科医生III(P<0.05)。普通放射科医生III在ChatGPT-4o辅助下的准确率从48.8%显著提高到了63.8%(P<0.001)。

结论:

ChatGPT-4o可能提升普通放射科医生在心脏影像学中的诊断表现,表明其作为诊断辅助工具的潜力。需要进一步的研究来评估其临床应用效果。

通俗语言总结:本研究比较了12个大型语言模型(LLMs)、1名心脏放射科医生和3名普通放射科医生在心脏放射学领域的诊断准确性,并研究了ChatGPT-4o辅助的影响。利用胸腔放射学会提供的80个病例,心脏放射科医生的准确率为72.5%,而普通放射科医生的准确率较低。ChatGPT-4o显著提高了他们的诊断准确性,普通放射科医生的准确率最高达到了63.8%。在大型语言模型中,Claude 3 Opus的准确率最高(81.3%)。ChatGPT-4o显著提高了所有放射科医生的鉴别诊断评分,表明其在心脏影像学中作为诊断辅助工具的潜力。

本文由机器生成,可能存在不准确之处。 常见问题解答

```
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号