ChatGPT-4o与放射科医生在乳腺超声BI-RADS分类中的一致性评估：一项基于多模态大语言模型的前瞻性研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Clinical Imaging》：Concordance between artificial intelligence and radiologists in BIRADS classification of breast ultrasound: A study using ChatGPT-4o

【字体：大中小】 时间：2025年10月10日 来源：Clinical Imaging 1.5

编辑推荐：

　　本研究评估了ChatGPT-4o在乳腺超声图像BI-RADS分类中的诊断一致性，发现其与放射科医生在明确良恶性病变（如BI-RADS 1和5）中表现出高度一致性（κ值达0.848–0.894），但在中间风险类别（如BI-RADS 3）中存在局限性。结果表明，AI可作为辅助工具提升诊断标准化水平，但仍需结合专家评估。

Highlight

本研究重点探讨了ChatGPT-4o在乳腺超声图像BI-RADS分类中的表现，通过与放射科医生的对比，揭示了AI在标准化诊断中的潜力与局限。

Results

共分析了来自350名患者的405张乳腺超声图像。两名放射科医生之间的一致性几乎完美（Cohen's κ = 0.832; p < 0.001）。ChatGPT-4o与放射科医生1的一致性为中等（κ = 0.593），与放射科医生2的一致性为显著（κ = 0.621）。最高一致性出现在BI-RADS 1（κ = 0.848）和BI-RADS 5（κ = 0.894）类别，而BI-RADS 3的一致性较低（κ = 0.487）。所有三名阅读者之间的总体一致性为显著（Fleiss' κ = 0.682; 95% CI: 0.639–0.725）。ChatGPT-4o偶尔将临界BI-RADS 3病例升级为BI-RADS 4，并倾向于将解剖结构（如肋骨或纤维腺体组织）误分类为病变。

Discussion

这项研究是对ChatGPT-4o在乳腺超声解读中诊断性能的最全面单中心分析之一。通过专注于超声为基础的BI-RADS分类，本研究填补了现有文献的空白。结果显示，ChatGPT-4o在区分明确良性和恶性病变方面表现出有希望的一致性，但在中间风险类别中表现不佳。主要局限性包括缺乏临床背景、解剖结构误解以及无法分析动态扫描特征。这些发现强调，AI目前应作为辅助工具，而非替代放射科专家评估。

Conclusion

本研究详细评估了ChatGPT-4o在乳腺超声解读中的表现，突出了其优势和局限性。该模型在BI-RADS谱极端区分明确良性和恶性病变方面表现出良好一致性，但在中间风险类别中表现不理想。关键局限性——如缺乏临床背景、解剖结构误解和无法分析动态图像——表明它应作为专家评估的辅助工具。

联系信箱：

粤ICP备09063491号

热点排行