《European Radiology》:Comparative evaluation of generative AI models for chest radiograph report generation in the emergency department
编辑推荐:
目的:对医学影像专用的视觉语言模型(VLM)与真实世界中放射科医师书写的报告进行基准测试,重点关注诊断质量、临床可接受性、幻觉(hallucination)以及语言清晰度。材料与方法:本回顾性研究纳入2022年1月至2025年4月期间于三级医疗中心急诊科就诊并
目的:对医学影像专用的视觉语言模型(VLM)与真实世界中放射科医师书写的报告进行基准测试,重点关注诊断质量、临床可接受性、幻觉(hallucination)以及语言清晰度。材料与方法:本回顾性研究纳入2022年1月至2025年4月期间于三级医疗中心急诊科就诊并接受同日胸部X线摄影(CXR)与CT检查的成人患者,其主诉为发热或呼吸道症状。五种VLM(AIRead、Lingshu、MAIRA-2、MedGemma和MedVersa)生成的报告与放射科医师书写的报告被随机呈现,由三名胸部影像放射科医师采用四项标准进行盲法评估:RADPEER、临床可接受性、幻觉(hallucination)和语言清晰度。采用广义线性混合模型评估比较性能,以放射科医师书写的报告作为参照。研究人员还以CT为参照进行了发现水平(finding-level)的分析。结果:共纳入478例患者(中位年龄67岁[四分位距50–78];男性282例[59.0%])。AIRead表现出最低的RADPEER 3b率(5.3%[76/1434]vs放射科医师13.9%[200/1434];p<0.001)和最高的临床可接受性(84.5%[1212/1434]vs放射科医师74.3%[1065/1434];p<0.001),其幻觉(hallucination)率与放射科医师相当(0.3%[4/1425]vs 0.1%[1/1425];p=0.21)。其他VLM表现出更高的不一致率(16.8–43.0%;p<0.05)、更低的可接受性(41.1–71.4%;p<0.05)和更频繁的幻觉(hallucination)(5.4–17.4%;p<0.05)。若干VLM(AIRead、Lingshu和MedVersa)的语言清晰度高于放射科医师书写的报告(82.9–88.4%[1189–1268/1434]vs 78.1%[1120/1434];p<0.05)。发现水平分析显示各VLM对常见胸部发现的敏感性存在显著变异。结论:用于CXR报告生成的医学VLM在报告质量和诊断指标方面表现出差异化的性能。
研究背景:近年来视觉语言模型(vision–language model,VLM)在医学影像报告自动生成领域快速发展,但既往评估多依赖语义相似度或自动化指标,缺乏以临床实用性为核心的多维度基准测试,且不同医学专用VLM在同一框架下头对头比较的研究尚缺。全球放射科医师短缺、急诊工作量激增,使得CXR(chest radiograph,胸部X线摄影)的及时、高质量报告需求迫切,因此有必要系统比较多个近期发布的医学影像专用VLM与真实世界放射科医师书写报告的报告级与发现级(finding-level)表现,明确其诊断质量、临床可接受性、幻觉(hallucination)及语言清晰度差异,以判断临床转化就绪度。
本研究发表于《European Radiology》。研究人员开展了一项回顾性基准测试研究,在急诊科发热或呼吸道症状成人患者中,将五种医学专用VLM(AIRead、Lingshu、MAIRA-2、MedGemma、MedVersa)生成的CXR报告与放射科医师书写报告盲法、随机交由三名胸部影像亚专科放射科医师采用RADPEER、临床可接受性、幻觉、语言清晰度四项标准评估,并以同日胸部CT为参照做发现级敏感性/特异性分析。结论为VLM间性能差异显著,其中一款非开源模型(AIRead)在诊断一致性(RADPEER 3b最低)、临床可接受性(最高)、幻觉率(与放射科医师相当极低)上优于放射科医师,其余模型多数在诊断一致性和可接受性上逊于放射科医师且幻觉更多;语言清晰度部分VLM高于放射科医师但未必对应诊断准确性;发现级各VLM对常见异常敏感性不一,对罕见但高危发现普遍低敏。意义在于证明经过针对性开发的VLM可接近放射科医师水平,能作为急诊CXR初步报告自动起草或第二阅片辅助工具,提升工作流效率与一致性,同时揭示需优化诊断-语言平衡及罕见异常识别方可可靠临床集成。
主要关键技术方法:研究人员回顾性纳入韩国首尔国立大学医院急诊科2022年1月至2025年4月期间成人患者,入组标准为接受同日初始前后位或后前位CXR与胸部CT且主诉含发热/寒战或呼吸困难、咳嗽、咯血、胸痛等呼吸道症状,排除含对照声明、报告缺失或过度依赖临床信息而非影像发现者,最终队列478例。采用五款VLM(AIRead为非开源,Lingshu、MAIRA-2、MedGemma、MedVersa为开源)在未微调、未用临床信息与对照影像条件下基于单NVIDIA H100 GPU(CUDA 12.4)从DICOM格式CXR生成报告。报告级质量由三名亚专科胸部放射科医师盲法随机评估四项指标:RADPEER评分(1为完全同意,2为可理解漏诊,3为不可接受漏诊,a为临床不显著、b为临床显著)、临床可接受性(4分制:4无需修改可接受、3仅需轻微修订、2需重大修订、1因检测错误不可接受)、幻觉(定义:单张正位CXR无法推导的信息如侧位、病史、对照、不支持的测量)、语言清晰度(5分制,输出≥4比例)。发现级分析以同日胸部CT为金标准,由胸部放射科医师判读15种预设异常(含肺不透明影(consolidation或磨玻璃影)、胸腔积液、气胸、肺气肿、结节/肿块、心脏增大等),并用基于CheXGPT(一种BERT(Bidirectional Encoder Representations from Transformers)架构、300万份CXR报告训练的标签器)从自由文本报告中提取发现存在与否,计算各源敏感性/特异性。统计采用广义线性混合模型(logit链接,报告来源为固定效应、阅片者/病例为随机截距)及置信区间,以放射科医师报告为参照。
结果:研究人员得出以下结果。报告级诊断质量:AIRead的RADPEER 3b率(5.3%)显著低于放射科医师(13.9%,p<0.001),RADPEER 2b或3b合计率(20.3% vs 30.3%,p<0.001)亦更低;其余VLM的RADPEER 3b更高(Lingshu 43.0%、MAIRA-2 24.5%、MedGemma 16.8%、MedVersa 25.9%,均p≤0.02)。临床可接受性(标准阈值:评分3+4)AIRead最高(84.5% vs 放射科医师74.3%,p<0.001),严格阈值(评分4)亦最高(58.2% vs 43.5%,p<0.001);其余VLM标准阈值均低于放射科医师(41.1–71.4%,p<0.05),严格阈值除MedGemma(42.9%,p=0.68)外均更低(25.3–39.7%)。报告级幻觉与语言清晰度:幻觉率放射科医师0.1%(1例),AIRead仅0.3%(p=0.21非劣),其余VLM显著更高(Lingshu 11.0%、MAIRA-2 17.4%、MedGemma 5.4%、MedVersa 12.3%,均p<0.05)。语言清晰度≥4比例放射科医师78.1%,AIRead(82.9%,p=0.001)、Lingshu(88.0%,p<0.001)、MedVersa(88.4%,p<0.001)更高,MedGemma更低(69.7%,p<0.001)。亚组(性别、年龄≥65岁、阅片放射科医师资历(住院医师vs认证专科医师))分析趋势一致:AIRead在各亚组RADPEER 3b最低、可接受性最高;Lingshu可接受性始终最低。发现级诊断性能:以CT为金标准,最常见CT发现为肺不透明影(53.8%)、胸腔积液(42.3%)、结节/肿块(23.4%)、肺气肿(18.2%)、心脏增大(15.7%)。AIRead对肺不透明影敏感性最高(77.8%,特异性70.6%),MedGemma对胸腔积液敏感性最高(71.8%,特异性75.0%);Lingshu对两者敏感性最低(肺不透明影16.3%、胸腔积液21.3%)。心脏增大敏感性VLM间69.3–86.7%、特异性61.5–87.3%;肺气肿敏感性仅2.4–20.2%、特异性94.7–99.2%。所有VLM未检出10例粟粒结节、1例气腹;Lingshu未检出9例气胸;AIRead检出1例纵隔积气。放射科医师发现级表现介于VLM区间内,无单一来源全面最优。
讨论部分总结:研究人员指出VLM间性能差异显著,AIRead在诊断一致性(RADPEER 3b最低)、临床可接受性(最高)、幻觉(极低且与放射科医师相当)维度综合最优,可支持急诊CXR自动起草或第二阅片以增效保质;其余VLM存在诊断-语言脱节(如Lingshu、MedVersa语言清晰度高但诊断差,MedGemma反之),且语言清晰度评估易受主观性影响,需标准化框架。发现级VLM对常见异常(肺不透明影、胸腔积液、结节/肿块、心脏增大)敏感性尚可但特异性不均,对罕见高危发现(主动脉瘤、纵隔/肺门异常、气腹、粟粒结节)普遍低敏,需针对性优化。局限含单中心回顾性、韩国简明报告风格可能影响语言清晰度评判、研究期全国住院医师罢工致认证放射科医师负荷异常可能影响放射科医师基线表现、仅一款非开源VLM、未评估临床结局与人机协作、VLM仅用影像未加临床元数据、CT作为金标准本身可能低估CXR对某些发现(肺气肿、粟粒结节、气腹)的敏感性。结论:医学专用VLM用于CXR报告生成性能差异大;其中一款非开源模型(AIRead)不仅诊断质量优于放射科医师,且幻觉极少,可提升信任度,支持继续精炼与定向临床集成。