ChatGPT-4o与Gemini在肺结节筛查报告Lung-RADS评分中的准确性对比：一项放射科标准化分类的AI效能评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年05月06日 来源：Clinical Imaging 1.8

编辑推荐：

　　本研究针对大型语言模型（LLMs）在肺癌筛查低剂量CT（LDCT）报告中自动生成Lung-RADS评分的临床适用性问题，对比了ChatGPT-3.5、ChatGPT-4o、Gemini和Gemini Advanced四种模型的性能。结果显示，ChatGPT-4o以83.6%的准确率显著优于其他模型（70.1%-70.9%），但其表现仍低于放射科专家（κ=0.836 vs. 人类间0.929）。该研究为AI辅助放射科标准化报告提供了可行性证据，同时指出需进一步领域特异性训练以提升临床可靠性。

论文解读

肺癌筛查的标准化报告系统Lung-RADS（Lung Image Reporting and Data System）是临床决策的重要依据，但其人工分类存在耗时和潜在主观偏差的问题。随着大型语言模型（LLMs）在医疗文本处理中的兴起，如何利用这类通用AI工具实现精准、高效的自动化评分成为研究热点。然而，既往研究多聚焦于专用模型（如RADBERT），对商业化LLMs在胸部影像领域的表现尚未系统评估。

美国某三级医疗中心的研究团队在《Clinical Imaging》发表了一项横断面研究，首次对比了主流LLMs在242例连续LDCT报告中自动生成Lung-RADS评分的能力。研究采用盲法设计，由胸科专科放射科医师提供基准评分，并引入独立放射科医师（IMK）评估人类间一致性。通过输入纯文本报告（排除影像和临床数据），测试了ChatGPT-3.5、ChatGPT-4o、Gemini和Gemini Advanced的准确性、响应时间及失败率。

关键技术方法

数据队列：纳入242例连续LDCT报告（男女各半，平均64.6岁），由5名胸科专科医师原始评分（Lung-RADS 1-4分布：55.8%/32.2%/4.5%/5.8%）。
模型测试：每个LLM独立会话处理报告"发现"部分，记录评分结果及响应时间。
统计指标：采用Cohen's κ评估模型与人类的一致性，Krippendorf α加权分析误差幅度，Mann-Whitney U检验比较响应时间差异。

研究结果

1. 模型性能差异显著
ChatGPT-4o展现出最优的临床适用性：

准确率达83.6%（95%CI 78.9-88.3），显著高于ChatGPT-3.5（70.1%）和Gemini系列（70.9%/65.1%）。
失败率仅3%，而其他模型高达17-20%（尤其对Lung-RADS 1分类失败率达99/153）。
一致性与人类专家的κ值达0.836，但仍低于人类间一致性（κ=0.929）。

2. 系统性偏差分析
所有LLMs存在共性缺陷：

过度分类倾向：将良性特征结节误判为Lung-RADS 3（如ChatGPT-3.5报告18例vs.基准11例）。
版本升级效应：ChatGPT-4o较3.5版显著改善（α从0.599升至0.796），但Gemini Advanced反降（α=0.643 vs. 基础版0.707）。
语境依赖缺陷：无法识别报告中"稳定2年"等关键时序信息，导致将本应Lung-RADS 1的结节误判为2类。

3. 效率与临床风险权衡

响应时间：ChatGPT-3.5最快（中位4秒），ChatGPT-4o较慢（10秒），但差异无临床意义（Lung-RADS 4仅延迟至12秒）。
风险模式：Gemini系列对4类结节低估率高达42.9%（8/14），可能延误高风险病例管理。

讨论与意义
该研究揭示了当前LLMs在放射科标准化报告中的双刃剑效应：

技术优势：ChatGPT-4o证明通用模型可通过大规模预训练获得领域知识迁移能力，其83.6%的准确率已接近部分初级医师水平，为自动化报告审核提供可能。
临床局限：模型对影像时序特征、良性描述符的解析不足，且缺乏图像整合能力（当前仅文本输入），导致其仍不适合独立决策。尤其值得注意的是，LLMs对Lung-RADS 3/4的过度分类可能引发不必要的侵入性检查，这与筛查"减少过度诊疗"的核心目标相悖。

作者建议未来研究方向应聚焦：

多模态整合：结合影像特征提取与文本分析
动态知识更新：适配Lung-RADS指南修订（如感染性病变的0类界定）
轻量化部署：借鉴Karabacak等提出的高效模型方案，平衡计算成本与性能

这项研究为AI辅助放射科工作流程建立了首个Lung-RADS专项评估基准，同时警示需严格验证商业化LLMs的临床可靠性。正如讨论所述，在确保患者安全与隐私的前提下，ChatGPT-4o或可成为提升报告标准化程度的辅助工具，但其应用必须遵循"人类监督+领域适配"的双重保障原则。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号