ChatGPT-4o与放射科医生在乳腺超声BI-RADS分类中的一致性评估:一项基于多模态大语言模型的前瞻性研究

【字体: 时间:2025年10月10日 来源:Clinical Imaging 1.5

编辑推荐:

  本研究评估了ChatGPT-4o在乳腺超声图像BI-RADS分类中的诊断一致性,发现其与放射科医生在明确良恶性病变(如BI-RADS 1和5)中表现出高度一致性(κ值达0.848–0.894),但在中间风险类别(如BI-RADS 3)中存在局限性。结果表明,AI可作为辅助工具提升诊断标准化水平,但仍需结合专家评估。

  
Highlight
本研究重点探讨了ChatGPT-4o在乳腺超声图像BI-RADS分类中的表现,通过与放射科医生的对比,揭示了AI在标准化诊断中的潜力与局限。
Results
共分析了来自350名患者的405张乳腺超声图像。两名放射科医生之间的一致性几乎完美(Cohen's κ = 0.832; p < 0.001)。ChatGPT-4o与放射科医生1的一致性为中等(κ = 0.593),与放射科医生2的一致性为显著(κ = 0.621)。最高一致性出现在BI-RADS 1(κ = 0.848)和BI-RADS 5(κ = 0.894)类别,而BI-RADS 3的一致性较低(κ = 0.487)。所有三名阅读者之间的总体一致性为显著(Fleiss' κ = 0.682; 95% CI: 0.639–0.725)。ChatGPT-4o偶尔将临界BI-RADS 3病例升级为BI-RADS 4,并倾向于将解剖结构(如肋骨或纤维腺体组织)误分类为病变。
Discussion
这项研究是对ChatGPT-4o在乳腺超声解读中诊断性能的最全面单中心分析之一。通过专注于超声为基础的BI-RADS分类,本研究填补了现有文献的空白。结果显示,ChatGPT-4o在区分明确良性和恶性病变方面表现出有希望的一致性,但在中间风险类别中表现不佳。主要局限性包括缺乏临床背景、解剖结构误解以及无法分析动态扫描特征。这些发现强调,AI目前应作为辅助工具,而非替代放射科专家评估。
Conclusion
本研究详细评估了ChatGPT-4o在乳腺超声解读中的表现,突出了其优势和局限性。该模型在BI-RADS谱极端区分明确良性和恶性病变方面表现出良好一致性,但在中间风险类别中表现不理想。关键局限性——如缺乏临床背景、解剖结构误解和无法分析动态图像——表明它应作为专家评估的辅助工具。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号