编辑推荐:
为解决基础模型在临床使用中的性能、可及性、成本和评估等问题,研究人员开展胸部 X 光片(CXR)图像关键发现识别研究。开发出 LLaVA-Rad 模型和 CheXprompt 评估指标,该模型性能超大型模型,为临床应用提供了有前景的工具。
在医学领域,人工智能(AI)的发展为疾病诊断带来了新的希望。特别是基础模型,经过大量无标记数据训练,能在多种医学任务中展现出不错的成果。然而,在实际临床应用中,这些模型却遭遇了重重阻碍。比如,将患者数据上传至云端模型面临隐私风险;现有先进模型往往规模庞大、资源消耗大,本地部署困难;很多模型不开放源代码,难以满足研究和应用需求;而且,模型存在的错误(如幻觉现象)也难以通过现有评估方法准确衡量 。
为了突破这些瓶颈,来自微软研究院(Microsoft Research)、斯坦福大学(Stanford University)等机构的研究人员开展了一项极具意义的研究。他们聚焦于胸部 X 光片(CXR)这一最常用的医学成像检查,致力于开发能够自动生成高质量放射学报告的模型,以提高放射科医生的工作效率,改善沟通并减轻其工作负担。研究成果发表在《Nature Communications》上。
研究人员在开展研究时,运用了多种关键技术方法。首先,他们构建了一个包含 697,435 对放射学图像 - 报告的大型数据集(CXR-697K),数据来源于 7 个不同的公开数据集。其次,采用模块化方法,结合先进的开源预训练模型,训练了特定领域的视觉编码器(BiomedCLIP-CXR)。同时,利用 GPT-4 对数据进行处理和增强,包括合成报告、翻译报告以及提取关键发现等。最后,开发了基于 GPT-4 的评估指标 CheXprompt,用于评估模型生成报告的事实准确性 。
下面来详细看看研究结果:
- LLaVA-Rad 模型概述:LLaVA-Rad 模型的训练分为三个阶段,即预训练阶段、对齐阶段和微调阶段。在预训练阶段,使用来自 7 个不同数据集的 697,000 对 CXR 图像和相关放射学报告训练 BiomedCLIP-CXR 编码器。对齐阶段,将预训练的视觉编码器与语言模型对齐,通过输入 CXR 图像生成放射学报告。微调阶段,利用 LoRA 技术,结合检查的适应症和图像进一步优化模型。三个阶段分别耗时 8 小时、4 小时和 16 小时(使用 8 个 A100 GPU) 。
- 使用现有报告生成基准评估 LLaVA-Rad:研究人员在广泛使用的放射学报告生成基准 MIMIC-CXR 测试集上,使用评估词汇相似性和事实准确性的指标对 LLaVA-Rad 进行评估。结果显示,LLaVA-Rad 在这两组指标上均表现出色,优于同等规模的模型,甚至在最重要的词汇相似性和事实准确性指标上超越了参数更多的 Med-PaLM M 模型 。在其他数据集(CheXpert、Open-I 和 US-CXR)上的评估也表明,LLaVA-Rad 的优异性能在不同设置下具有一致性。此外,通过对比使用不同图像编码器的模型在交叉模态检索任务中的表现,发现 BiomedCLIP-CXR 的图像编码器性能最佳 。
- 使用 CheXprompt 评估 LLaVA-Rad:由于现有自动报告评估方法存在局限性,研究人员开发了 CheXprompt 评估系统。通过与专家评分的对比,发现基于 GPT-4 的 CheXprompt 评估与专家评分高度相关,其计算的总误差与专家评分的平均绝对差(MAD)更小,在计算总误差方面与专家评分难以区分。使用 CheXprompt 评估 LLaVA-Rad 在 MIMIC-CXR 测试集上的表现,结果表明 LLaVA-Rad 生成的临床显著错误和总错误更少,且在生成无错误报告的比例上表现最佳 。在外部验证数据集上也观察到了类似的趋势,不过 LLaVA-Rad 在常见发现上更倾向于高特异性,以牺牲一定程度的敏感性为代价 。
- 使用消融和案例研究分析 LLaVA-Rad 的组件:通过消融研究,对比不同变体模型,发现预训练特定领域的图像编码器以及使用 GPT-4 处理和增强数据,对 LLaVA-Rad 的性能提升有重要作用。此外,研究人员开发的注意力可视化方法表明,LLaVA-Rad 在生成报告时,能够将注意力聚焦在与生成单词相关的图像区域,不同层和注意力头的注意力分布存在差异,通过特定的聚合策略可以得到与相关图像区域相关性较高的焦点 。
综合研究结论和讨论部分,LLaVA-Rad 作为一种轻量级但高性能的放射学多模态模型,在胸部 X 光片报告生成领域取得了显著成果,其性能优于大型模型,且能够在本地硬件上运行,为临床应用提供了更高效、可及的解决方案。同时,CheXprompt 评估指标有效解决了放射学报告自动评估的难题,与专家评分高度一致,进一步证明了 LLaVA-Rad 在临床报告生成方面的优越性 。然而,该研究也存在一些有待改进的地方。例如,LLaVA-Rad 目前仅适用于胸部 X 光片,未来需要拓展到其他解剖部位和成像模态;在模型的可解释性方面,需要更深入地研究基于注意力的归因方法;此外,还应考虑将更多的患者信息整合到模型中,以提高模型对患者的综合评估能力 。尽管如此,LLaVA-Rad 的出现仍然为医学多模态模型的发展开辟了新的道路,有望在未来的临床实践中发挥重要作用,推动医学诊断的智能化进程。