Hi-End-MAE:面向医学图像分割的层次化编码器驱动掩码自编码器——突破视觉Transformer在医疗影像中的表示瓶颈

【字体: 时间:2025年09月14日 来源:Medical Image Analysis 11.8

编辑推荐:

  本文提出了一种创新的层次化编码器驱动掩码自编码器(Hi-End-MAE),通过编码器驱动重建和层次密集解码两大核心机制,显著提升了视觉Transformer(ViT)在医学图像分割任务中的表征能力。该方法在10K CT扫描数据上预训练,并在九个公共医学分割基准测试中展现出卓越的迁移性能,为标签稀缺的医学影像分析提供了高效且可扩展的自监督学习(SSL)解决方案。

  

Highlight

  • 编码器驱动重建机制使Hi-End-MAE能够通过代理重建任务学习更强表征,在六大数据集的单次分割任务和不同比例微调实验中均优于现有医学自监督学习方法(SSL)。

  • 得益于层次密集解码结构,Hi-End-MAE能够捕获比MAE更丰富的跨层局部解剖表征。基于令牌查询的注意力可视化显示,Hi-End-MAE能够学习特定器官的强局部模式,如管状注意力和簇状注意力。

  • Hi-End-MAE兼具泛化性与高效性。其所学的鲁棒局部模式可有效泛化至其他模态(如MRI)。编码器驱动重建机制显著降低计算成本,计算减少量与掩码比例线性相关,大幅降低大规模3D医学图像预训练成本的同时实现强大医学表征。

Introduction

深度学习在医学图像分析中展现出显著进展(Zhou等,2023a),但其发展深受临床医生与专家标注劳动强度大、耗时长的问题制约(Zhang等,2023)。尤其在3D医学图像分割中,有限标注数据为医学任务带来巨大挑战(Taleb等,2020;Ma等,2021b;Luo等,2022)。为缓解这一负担,自监督学习(SSL)方法被开发用于通过代理任务在大量无标注数据上预训练视觉编码器(Chen等,2020;He等,2020a;Caron等,2021;He等,2022),并将其迁移至下游任务。这一范式为标签高效学习提供了有前景的解决方案(Zhou等,2021;Wu等,2024;Tang等,2024b)。

然而,受计算资源限制与无标注医学数据量增长的影响,在大规模3D医学数据集上预训练面临显著挑战。这一局限推动了对资源高效且性能可扩展的预训练框架的需求。在此背景下,代表性掩码图像建模(MIM)技术——掩码自编码器(MAE)(He等,2022)成为一种有前景的解决方案,其通过仅处理少量可见图像块(patches)预训练视觉Transformer(ViT)(Dosovitskiy,2020)。这一计算高效的方法为大规模3D医学数据集预训练带来显著优势(Chen等,2023)。然而,MAE框架存在架构约束,需通过令牌独立的原始ViT架构实现以提升预训练效率。医学分割基准测试的有力证据揭示了一个根本局限:基于原始ViT骨干的分割网络性能逊于卷积神经网络(Ronneberger等,2015;Roy等,2023)或混合网络(Tang等,2024b;2025c;2025b;2025a)。这一性能差距源于ViT固有的空间归纳偏置缺失——这一关键短板在有限标注数据从头训练时变得尤为不利(Hatamizadeh等,2022;Tang等,2022;Ronneberger等,2015;Roy等,2023;Tang等,2024b)。这些因素限制了ViT在医学图像分析中的潜力。

预训练视觉Transformer(ViT)在自然图像处理中的成功(Caron等,2021;He等,2022)激励我们探索其在医学视觉任务中的潜力。近期研究表明,掩码图像建模(MIM)天生适合低级任务,因其能有效学习局部注意力模式以弥补ViT有限的归纳偏置(Zhang等,2022a)。关键的是,尽管预训练ViT在自然图像中展现出卓越的少样本学习能力(Caron等,2021;He等,2022;Xie等,2022b;Bao等,2021),这种泛化能力在医学领域仍未充分探索,而这对于处理标签稀缺的分割任务至关重要。

大多数为ViT设计的先进MIM方法(如MAE)针对自然图像(He等,2022;Zhou等,2023b;Chen等,2024;Dong等,2023;Xie等,2022b),采用分离的编码器和解码器分别进行表征和重建。我们将此类方法归类为解码器驱动重建(如图1(a)所示)。尽管该方法部分释放了编码器的表征能力,但解码器仍在重建中起关键作用(Chen等,2024),因此在医学图像预训练中表现不足。如图1所示,在解剖结构上可视化注意力图时,我们观察到MAE的局部查询注意力在不同解剖环境中适应性有限(例如,有限的管状和簇状注意力模式)。这一局限可归因于MAE在捕获层次化医学语义方面的架构约束,因其仅利用最深特征而忽略了浅层ViT层所学的中间表征。如前人工作所证明,传统医学架构(如U-Net(Ronneberger等,2015)及其变体(Roy等,2023;Hatamizadeh等,2022;Tang等,2022))通过密集跳跃连接系统利用多尺度特征学习,层次特征在捕获详细解剖语义和提升下游性能中起关键作用。

基于上述局限,一个自然的洞见产生:是否可能通过解决代理重建任务在MIM中引入高效的层次化局部表征学习?不同于先前解码器驱动重建,我们尝试引入一种简单而有效的层次化编码器驱动密集解码架构(Hi-End-MAE)以解决此问题(如图1(b)所示)。Hi-End-MAE背后有两个关键创新思想:(i)编码器驱动重建:利用解码器令牌高效查询可见编码表征。注意力加权值进一步重建掩码块。该机制减少了解码器在重建中的作用,直接建立表征质量与重建能力之间的关系,使编码器学习更强表征。(ii)层次密集解码:执行自下而上的密集层次解码以学习不同层间更丰富的解剖模式。在自下而上编码器驱动密集解码过程中,Hi-End-MAE逐步减少解码器工作量,迫使编码器学习信息丰富的层次表征以补偿解码信息损失。

与其他医学SSL方法相比,我们的Hi-End-MAE不仅学习更高质量的局部表征,弥补了ViT固有的归纳偏置限制,而且捕获了跨层的局部解剖模式,这对医学成像任务至关重要且有利于上下游对齐。此外,通过使用可见编码器令牌进行解码,我们的Hi-End-MAE比MAE更快、更强,使其非常适合大规模数据集预训练。通过在七个下游医学数据集上的广泛实证评估,我们证明:

Conclusion

低层级高质量局部解剖表征学习的必要性促使我们探索一种新的架构范式以进行细粒度医学图像预训练。本文中,我们提出了Hi-End-MAE,一个简单而有效的医学SSL框架。不同于先前解码器驱动重建,Hi-End-MAE利用编码器驱动密集解码以获得高质量医学表征。具体地,它包含两部分:(1)编码器驱动重建

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号