
-
生物通官微
陪你抓住生命科技
跳动的脉搏
利用ChatGPT-4o赋能放射科医生:在心脏疾病病例中对比评估大型语言模型与放射科医生的表现
【字体: 大 中 小 】 时间:2025年10月27日 来源:Journal of Thoracic Imaging 1.9
编辑推荐:
本研究评估了12种大型语言模型(LLMs)、1位心脏放射科医生和3位普通放射科医生在心脏影像诊断中的准确性及鉴别诊断能力,并考察ChatGPT-4o辅助的影响。结果显示,普通放射科医生在ChatGPT-4o辅助下准确率显著提升(51.3%→63.8%),心脏放射科医生提升幅度较小(72.5%→78.8%)。LLMs中Claude 3 Opus表现最佳(81.3%)。辅助后所有放射科医生的鉴别诊断评分均显著提高(P≤0.05),提示ChatGPT-4o可作为心脏影像诊断的辅助工具,但需进一步评估临床整合。
本研究评估了12个大型语言模型(LLMs)、1名心脏放射科医生和3名普通放射科医生在心脏放射学领域的诊断准确性和鉴别诊断能力。同时,还研究了ChatGPT-4o辅助对放射科医生表现的影响。
我们从胸腔放射学会网站收集了80个公开的“每月心脏病例”。大型语言模型和放射科医生III仅获得了基于文本的信息,而其他放射科医生则在有无ChatGPT-4o辅助的情况下对病例进行了视觉评估。诊断准确性和鉴别诊断评分(DDx评分)通过χ2、Kruskal-Wallis、Wilcoxon、McNemar和Mann-Whitney U检验进行分析。
未经辅助的心脏放射科医生的诊断准确率为72.5%,普通放射科医生I的准确率为53.8%,普通放射科医生II的准确率为51.3%。在ChatGPT-4o的辅助下,这些准确率分别提高到了78.8%、70.0%和63.8%。普通放射科医生I和II的准确率提升具有统计学意义(P≤0.006)。所有放射科医生的DDx评分在ChatGPT-4o辅助下均有显著提高(P≤0.05)。值得注意的是,放射科医生I在ChatGPT-4o辅助下的诊断准确率和DDx评分与心脏放射科医生未经辅助时的表现没有显著差异(P>0.05)。
在大型语言模型中,Claude 3 Opus和Claude 3.5 Sonnet的准确率最高(均为81.3%),其次是Claude 3 Sonnet(70.0%)。在DDx评分方面,Claude 3 Opus的表现优于所有模型和放射科医生III(P<0.05)。普通放射科医生III在ChatGPT-4o辅助下的准确率从48.8%显著提高到了63.8%(P<0.001)。
ChatGPT-4o可能提升普通放射科医生在心脏影像学中的诊断表现,表明其作为诊断辅助工具的潜力。需要进一步的研究来评估其临床应用效果。
通俗语言总结:本研究比较了12个大型语言模型(LLMs)、1名心脏放射科医生和3名普通放射科医生在心脏放射学领域的诊断准确性,并研究了ChatGPT-4o辅助的影响。利用胸腔放射学会提供的80个病例,心脏放射科医生的准确率为72.5%,而普通放射科医生的准确率较低。ChatGPT-4o显著提高了他们的诊断准确性,普通放射科医生的准确率最高达到了63.8%。在大型语言模型中,Claude 3 Opus的准确率最高(81.3%)。ChatGPT-4o显著提高了所有放射科医生的鉴别诊断评分,表明其在心脏影像学中作为诊断辅助工具的潜力。
本文由机器生成,可能存在不准确之处。 常见问题解答
生物通微信公众号
知名企业招聘