
-
生物通官微
陪你抓住生命科技
跳动的脉搏
ChatGPT-4o与Gemini在肺结节筛查报告Lung-RADS评分中的准确性对比:一项放射科标准化分类的AI效能评估
【字体: 大 中 小 】 时间:2025年05月06日 来源:Clinical Imaging 1.8
编辑推荐:
本研究针对大型语言模型(LLMs)在肺癌筛查低剂量CT(LDCT)报告中自动生成Lung-RADS评分的临床适用性问题,对比了ChatGPT-3.5、ChatGPT-4o、Gemini和Gemini Advanced四种模型的性能。结果显示,ChatGPT-4o以83.6%的准确率显著优于其他模型(70.1%-70.9%),但其表现仍低于放射科专家(κ=0.836 vs. 人类间0.929)。该研究为AI辅助放射科标准化报告提供了可行性证据,同时指出需进一步领域特异性训练以提升临床可靠性。
论文解读
肺癌筛查的标准化报告系统Lung-RADS(Lung Image Reporting and Data System)是临床决策的重要依据,但其人工分类存在耗时和潜在主观偏差的问题。随着大型语言模型(LLMs)在医疗文本处理中的兴起,如何利用这类通用AI工具实现精准、高效的自动化评分成为研究热点。然而,既往研究多聚焦于专用模型(如RADBERT),对商业化LLMs在胸部影像领域的表现尚未系统评估。
美国某三级医疗中心的研究团队在《Clinical Imaging》发表了一项横断面研究,首次对比了主流LLMs在242例连续LDCT报告中自动生成Lung-RADS评分的能力。研究采用盲法设计,由胸科专科放射科医师提供基准评分,并引入独立放射科医师(IMK)评估人类间一致性。通过输入纯文本报告(排除影像和临床数据),测试了ChatGPT-3.5、ChatGPT-4o、Gemini和Gemini Advanced的准确性、响应时间及失败率。
关键技术方法
研究结果
1. 模型性能差异显著
ChatGPT-4o展现出最优的临床适用性:
2. 系统性偏差分析
所有LLMs存在共性缺陷:
3. 效率与临床风险权衡
讨论与意义
该研究揭示了当前LLMs在放射科标准化报告中的双刃剑效应:
作者建议未来研究方向应聚焦:
这项研究为AI辅助放射科工作流程建立了首个Lung-RADS专项评估基准,同时警示需严格验证商业化LLMs的临床可靠性。正如讨论所述,在确保患者安全与隐私的前提下,ChatGPT-4o或可成为提升报告标准化程度的辅助工具,但其应用必须遵循"人类监督+领域适配"的双重保障原则。
生物通微信公众号
知名企业招聘