ChatGPT-4o与Gemini在肺结节筛查报告Lung-RADS评分中的准确性对比:一项放射科标准化分类的AI效能评估

【字体: 时间:2025年05月06日 来源:Clinical Imaging 1.8

编辑推荐:

  本研究针对大型语言模型(LLMs)在肺癌筛查低剂量CT(LDCT)报告中自动生成Lung-RADS评分的临床适用性问题,对比了ChatGPT-3.5、ChatGPT-4o、Gemini和Gemini Advanced四种模型的性能。结果显示,ChatGPT-4o以83.6%的准确率显著优于其他模型(70.1%-70.9%),但其表现仍低于放射科专家(κ=0.836 vs. 人类间0.929)。该研究为AI辅助放射科标准化报告提供了可行性证据,同时指出需进一步领域特异性训练以提升临床可靠性。

  

论文解读

肺癌筛查的标准化报告系统Lung-RADS(Lung Image Reporting and Data System)是临床决策的重要依据,但其人工分类存在耗时和潜在主观偏差的问题。随着大型语言模型(LLMs)在医疗文本处理中的兴起,如何利用这类通用AI工具实现精准、高效的自动化评分成为研究热点。然而,既往研究多聚焦于专用模型(如RADBERT),对商业化LLMs在胸部影像领域的表现尚未系统评估。

美国某三级医疗中心的研究团队在《Clinical Imaging》发表了一项横断面研究,首次对比了主流LLMs在242例连续LDCT报告中自动生成Lung-RADS评分的能力。研究采用盲法设计,由胸科专科放射科医师提供基准评分,并引入独立放射科医师(IMK)评估人类间一致性。通过输入纯文本报告(排除影像和临床数据),测试了ChatGPT-3.5、ChatGPT-4o、Gemini和Gemini Advanced的准确性、响应时间及失败率。

关键技术方法

  1. 数据队列:纳入242例连续LDCT报告(男女各半,平均64.6岁),由5名胸科专科医师原始评分(Lung-RADS 1-4分布:55.8%/32.2%/4.5%/5.8%)。
  2. 模型测试:每个LLM独立会话处理报告"发现"部分,记录评分结果及响应时间。
  3. 统计指标:采用Cohen's κ评估模型与人类的一致性,Krippendorf α加权分析误差幅度,Mann-Whitney U检验比较响应时间差异。

研究结果

1. 模型性能差异显著
ChatGPT-4o展现出最优的临床适用性:

  • 准确率达83.6%(95%CI 78.9-88.3),显著高于ChatGPT-3.5(70.1%)和Gemini系列(70.9%/65.1%)。
  • 失败率仅3%,而其他模型高达17-20%(尤其对Lung-RADS 1分类失败率达99/153)。
  • 一致性与人类专家的κ值达0.836,但仍低于人类间一致性(κ=0.929)。

2. 系统性偏差分析
所有LLMs存在共性缺陷:

  • 过度分类倾向:将良性特征结节误判为Lung-RADS 3(如ChatGPT-3.5报告18例vs.基准11例)。
  • 版本升级效应:ChatGPT-4o较3.5版显著改善(α从0.599升至0.796),但Gemini Advanced反降(α=0.643 vs. 基础版0.707)。
  • 语境依赖缺陷:无法识别报告中"稳定2年"等关键时序信息,导致将本应Lung-RADS 1的结节误判为2类。

3. 效率与临床风险权衡

  • 响应时间:ChatGPT-3.5最快(中位4秒),ChatGPT-4o较慢(10秒),但差异无临床意义(Lung-RADS 4仅延迟至12秒)。
  • 风险模式:Gemini系列对4类结节低估率高达42.9%(8/14),可能延误高风险病例管理。

讨论与意义
该研究揭示了当前LLMs在放射科标准化报告中的双刃剑效应:

  1. 技术优势:ChatGPT-4o证明通用模型可通过大规模预训练获得领域知识迁移能力,其83.6%的准确率已接近部分初级医师水平,为自动化报告审核提供可能。
  2. 临床局限:模型对影像时序特征、良性描述符的解析不足,且缺乏图像整合能力(当前仅文本输入),导致其仍不适合独立决策。尤其值得注意的是,LLMs对Lung-RADS 3/4的过度分类可能引发不必要的侵入性检查,这与筛查"减少过度诊疗"的核心目标相悖。

作者建议未来研究方向应聚焦:

  • 多模态整合:结合影像特征提取与文本分析
  • 动态知识更新:适配Lung-RADS指南修订(如感染性病变的0类界定)
  • 轻量化部署:借鉴Karabacak等提出的高效模型方案,平衡计算成本与性能

这项研究为AI辅助放射科工作流程建立了首个Lung-RADS专项评估基准,同时警示需严格验证商业化LLMs的临床可靠性。正如讨论所述,在确保患者安全与隐私的前提下,ChatGPT-4o或可成为提升报告标准化程度的辅助工具,但其应用必须遵循"人类监督+领域适配"的双重保障原则。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号