综述:深度学习在胸部X光报告生成中的最新进展

《BioMedInformatics》:Recent Progress in Deep Learning for Chest X-Ray Report Generation

【字体: 时间:2026年01月12日 来源:BioMedInformatics CS3.4

编辑推荐:

  这篇综述系统梳理了胸部X光报告生成领域的最新突破,重点探讨了基于深度学习(Deep Learning)的多模态学习方法。文章详细分析了公共数据集(如MIMIC-CXR、CheXpert)的特点与局限,对比了自然语言生成(NLG)指标与临床效能(CE)指标(如RadGraph F1、GREEN评分)的优劣,并评述了从编码器-解码器(Encoder-Decoder)架构到大视觉语言模型(LVLM)的技术演进。综述指出,尽管模型在语言流畅度上表现优异,但其事实准确性(Factual Accuracy)仍有限(专家评估仅72%),且在罕见病变和侧位片(Lateral Views)上性能较差。最后,文章强调了提升模型临床可靠性所面临的数据质量、事实一致性和可解释性等关键挑战。

  
胸部X光放射学报告生成的最新进展
胸部X光摄影是全球最常进行的医学影像检查程序,但其核心作用正日益受到全球放射科医生短缺和工作量增加的挑战。深度学习解决方案辅助放射学解读的需求日益增长,自动医学报告系统成为减少人为错误和报告延迟的有前景方案。
医学数据集
公共大规模标注数据集是推动该领域进步的关键组件。常用的数据集包括MIMIC-CXR、MIMIC-CXR-JPG、IU X-Ray (Open-I)、ChestX-Ray14 (NIH)、CheXpert (Stanford)及其升级版CheXpert Plus、PadChest及其空间标注扩展PadChest-GR、VinDr-CXR、结构化的Rad-ReStruct以及专注于可解释性的FG-CXR数据集。这些数据集在图像数量、报告格式、标注质量和病理覆盖范围上存在差异,直接影响模型的设计和性能。例如,MIMIC-CXR包含超过37万张图像和22万份研究,而PadChest提供了西班牙语报告,适合多语言场景。
评估指标
评估指标主要分为三类。自然语言生成(NLG)指标,如BLEU (Bilingual Evaluation Understudy)、ROUGE (Recall-Oriented Understudy for Gisting Evaluation)和METEOR (Metric for Evaluation of Translation with Explicit ORdering),评估生成报告与参考报告之间的词汇和句法相似性,但与临床正确性相关性弱。临床效能(CE)指标,如RadGraph F1、基于CheXbert的向量相似性和GREEN (Generative Radiology Report Evaluation and Error Notation)评分,更能可靠地评估医学事实性,通过提取和比较病理标签来实现。GREEN还能识别六类错误并提供可解释的总结。此外,放射科医生的人工评估和基于大语言模型(LLM)的评估协议对于评估临床效用、连贯性和错误严重性至关重要。
基于深度学习的报告生成模型
模型架构已从经典的编码器-解码器发展到更先进的方法。
  • 编码器-解码器架构:这类模型通常使用编码器(如CNN或Vision Transformer)提取图像特征,解码器(如RNN或Transformer)生成报告。创新方法包括:
    • 提示和知识增强模型:如PromptMRG,使用诊断驱动的提示(Diagnosis-Driven Prompts)和交叉模态特征增强(Cross-Modal Feature Enhancement)来引导生成临床一致的报告。ChestBioX-Gen利用BioGPT的医学知识。其他方法通过预测关键词或融合临床背景信息来指导生成。
    • 记忆增强和解剖学引导模型:AERMNet通过注意力增强的关系记忆(Attention-Enhanced Relational Memory)模块改善长程依赖。HKRG (Hierarchical Knowledge Radiology Generator)采用分层推理结构,将图像特征与器官和病理知识关联。Gen-XAI则利用眼动追踪(Gaze-Tracking)热图作为监督信号,生成针对特定解剖区域的报告,增强可解释性。
    • 多视图和纵向引导模型:MLRG (Multi-view Longitudinal Report Generation)模型通过整合多视图和纵向(时间序列)信息,更好地模拟放射科医生的工作流程,生成更准确的报告。
    • 基于Transformer的编码器-解码器:如CheXReport,完全基于Swin Transformer架构,展示了纯Transformer模型的有效性。
    • 多模态数据融合模型:有研究尝试融合胸部X光图像与临床笔记、生命体征等患者数据,通过交叉注意力机制生成报告,并经过放射科医生评估,显示出潜力但仍需改进。
  • 大视觉语言模型:这些模型通常将视觉编码器(如ViT, SigLIP)与大语言模型(LLM,如LLaMA-2, Vicuna, Qwen2)对齐,并通过指令微调(Instruction Tuning)适应放射学任务。
    • 任务特定模型:如CXR-LLaVA,专为胸部X光解读设计,在特定数据集上表现出色,人工评估成功率达72.7%。
    • 对话式和交互式模型:如RaDialog和XrayGPT,不仅生成报告,还能进行多轮对话,回答临床问题。RadVLM是一个紧凑的多任务模型,在多项指标上表现良好。
    • 专家引导模型:如VILA-M3,在推理过程中激活外部专家模型(如分割工具、分类器)的输出,将其作为提示来细化生成文本,提高了临床准确性。
    • 多阶段视觉语言模型:如基于Mamba架构的MambaXray-VL,采用对比学习和监督微调等多阶段训练策略。
    • 统一医学视觉语言模型:如HealthGPT,旨在通过统一的架构处理多种医学模态的理解和生成任务。
提高事实性和领域适应性的方法
除了模型架构,一些方法学策略也被提出来提升事实准确性和领域适应性。
  • 检索增强生成:RULE框架通过检索相关的放射学报告来引导最终报告的生成,以减少幻觉。
  • 引导通用LLM适应RRG任务:通过领域内实例诱导(I3)和粗到细解码(C2FD)等策略,使通用LLM更好地适应放射学报告生成。
  • 无需人类反馈的基于偏好的对齐:CheXalign方法利用自动化流程(如使用GREEN评分创建偏好对)对模型进行偏好优化(如DPO, Kahneman-Tversky Optimization),显著提高了事实对齐度,而无需昂贵的放射科医生反馈。
讨论与开放挑战
尽管取得了进展,但仍面临诸多挑战。
  • 数据质量与监督:数据集多样性不足(如主要包含英文报告、正位片)、类别不平衡问题影响模型性能,特别是对罕见病变的识别。
  • 事实性与泛化能力:模型仍存在事实错误和幻觉问题,在侧位片和罕见病理上表现不佳。跨机构泛化能力弱是一个主要障碍。
  • 超越架构:优化事实性:检索增强、引导和偏好对齐等方法为提高事实性提供了有希望的途径。
  • 可解释性与临床整合:模型的决策过程需要透明化(如通过分层推理、注意力热图)以赢得临床医生的信任。开发支持人机交互(Human-in-the-Loop)的系统对于临床整合至关重要。
  • LLM生成的影响与风险:LLM可能产生带有高置信度的幻觉,导致误诊。存在自动化偏见(Automation Bias)风险,即临床医生可能过度依赖AI输出而忽视错误验证。临床采用还涉及责任分配等伦理问题。
  • 未来展望:未来工作包括创建多样化的多机构数据集、建立临床验证的基准测试、优先考虑事实准确性和可解释性,以及探索智能AI系统(Agentic AI)进行自我验证和修正。进行前瞻性临床研究是推动该领域走向安全临床部署的关键。
结论
深度学习在胸部X光放射学报告生成方面取得了显著进展。然而,数据集的局限性、事实可靠性不足以及缺乏前瞻性临床验证等问题阻碍了其临床应用。未来的方向包括改善数据多样性和质量、开发更好的临床评估基准、增强模型的事实性和可解释性,以及探索检索增强和偏好对齐等策略。解决这些挑战对于开发能够可靠集成到临床工作流程中、减少报告延迟并扩大全球放射学专业知识可及性的系统至关重要。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号