HMA-Net:一种用于无监督仿射医学图像配准的混合曼哈顿注意力网络

《Biomedical Signal Processing and Control》:HMA-Net: A Hybrid Manhattan Attention Network for unsupervised affine medical image registration

【字体: 时间:2026年01月10日 来源:Biomedical Signal Processing and Control 4.9

编辑推荐:

  医学图像配准中的Transformer模型存在局部细节感知不足和计算冗余问题。本文提出HMA-Net双路径混合网络,通过3D Manhattan自注意力模块增强局部空间感知,采用二维切片分离的融合自注意力模块降低计算复杂度,结合多层级特征交互机制提升配准精度。实验表明在OASIS和LPBA40数据集上,HMA-Net在准确率和效率上均优于现有方法。

  
郭鹏尹|陈庞|杨佐|杜平|刘雷|严丽
山东师范大学信息科学与工程学院,济南,250014,中国

摘要

仿射图像配准是医学图像分析中的关键任务,其目标是通过全局几何变换实现图像的空间对齐。基于深度学习的医学图像配准方法相比传统方法表现出更优越的性能。然而,尽管基于Transformer的模型在建模长距离依赖关系方面具有优势,但它们在局部细节感知和计算冗余性方面存在局限性,这阻碍了配准精度和效率的进一步提升。为了克服这些限制,我们提出了HMA-Net,一种用于无监督3D仿射医学图像配准的混合曼哈顿注意力网络。首先,我们提出了一个3D曼哈顿自注意力模块,通过引入空间衰减矩阵来显式编码3D位置信息,从而增强了模型感知局部细节的能力。其次,融合的曼哈顿自注意力模块将3D注意力分解为一维形式,并在三个平面上独立计算和融合,显著降低了计算冗余性。这两个模块共同构成了一个解码器,实现了配准精度和效率之间的有效平衡。最后,该网络基于一个创新的编码器,分别对固定和移动图像进行多层特征提取,并通过局部交互式曼哈顿注意力实现特征匹配和融合,进一步提高配准精度。我们在三个脑部配准任务上评估了HMA-Net的性能,结果显示其在精度和效率方面均优于现有的最先进方法。

引言

医学图像配准旨在将来自不同来源的图像进行空间对齐,是医学图像分析中的关键步骤之一[1]。它通过内容相似性将固定图像和移动图像对齐到同一个坐标系统中。传统的配准方法通常将配准过程表述为一个能量最小化问题,采用梯度下降[2]等迭代优化策略来计算一个平滑变换,通过最小化基于相似性的能量函数[3]将移动图像与固定图像对齐。而在传统方法中,变换模型通常是预先设计并优化的(例如仿射或弹性变换),而基于深度学习的方法通过端到端训练的网络参数来表示变换映射,从而具有更强的适应性和表达能力。
随着深度学习的发展,基于学习的图像配准方法越来越多地被提出,特别是基于CNN和Transformer的方法。传统的医学图像配准方法依赖于有监督的真实变形场,其精度受到这些变形场注释质量的限制。基于深度学习的方法通常采用无监督学习范式[4]、[5]、[6]、[7],与传统方法不同,它们不需要依赖真实变形场作为监督信号,通过优化图像相似性来实现高效和准确的配准,速度提高了几个数量级,并显著增强了泛化能力。Balakrishnan等人提出了一种基于VoxelMorph[8]的CNN架构,该架构使用U-Net架构通过训练神经网络直接从输入的移动和静止图像中预测变形场。具体来说,VoxelMorph利用U-Net的编码器-解码器架构高效提取多尺度图像特征,并用预测的变形场对移动图像进行采样,以空间上精确地匹配静止图像。随后出现了多种改进的基于CNN的方法[9]、[10],尽管卷积神经网络在提取局部图像特征方面表现出色,但它们在捕捉长距离依赖关系和全局上下文信息方面仍然不足,而这正是准确处理大规模或复杂变形的关键。
与CNN不同,Transformer提出了一种自注意力[11]机制,通过计算令牌查询键的相似性来实现全局上下文建模和捕捉长距离依赖关系,这可能更适合图像配准任务。Swin-Transformer[12]将全局注意力限制在局部区域,并通过引入滑动窗口和层次结构逐渐建立跨区域连接性,从而提高了计算效率并增强了模型在视觉任务中的表现力。TransMorph[13]基于Swin-Transformer架构,采用CNN-Transformer编码-解码结构以无监督方式学习图像之间的变形场,而TransMatch[14]在此基础上引入了显式的多层特征匹配机制,进一步提升了Transformer在医学图像配准中的表示能力和配准性能。尽管基于Transformer的方法在全局建模和捕捉长距离依赖关系方面取得了显著进展,但仍存在许多问题。由于自注意力机制缺乏感知局部结构的能力,模型难以有效捕捉图像中的细粒度变形,从而影响配准精度。此外,Transformer的计算复杂性和内存消耗随图像分辨率的提高而呈二次方增长,这严重限制了其在高分辨率医学图像配准任务中的应用。这些限制表明,在医学图像配准中实现精度和效率之间的平衡至关重要。
在本文中,我们提出了HMA-Net,这是一个结合了卷积神经网络(CNN)和保留型Meeting Transformer(RMT)框架的双路径混合网络,用于无监督3D仿射医学图像配准。为了在配准精度和计算效率之间实现有效平衡,我们提出了RMT3D模块,该模块包括两个组件:3D曼哈顿自注意力(3D-MSA)和融合曼哈顿自注意力(FMSA)。3D-MSA模块通过将曼哈顿距离作为空间先验来增强局部空间感知,从而提高对局部空间结构的敏感性。在此基础上,FMSA模块首先将3D图像分解为2D切片,并对每个切片应用单独的注意力加权,然后将高维空间注意力计算降维为一维,显著降低了计算复杂度。为了进一步提高配准精度,网络使用双路径特征提取,并利用局部交互式曼哈顿注意力(LIMA)机制实现精确和高效的特征配准和融合。本工作的主要贡献如下:
  • 我们提出了一种名为HMA-Net的混合曼哈顿注意力网络,该网络采用多尺度策略进行粗到细的配准和多层次特征匹配,增强了模型在多个层次特征级别捕捉变形的能力。
  • 我们提出了3D曼哈顿自注意力和融合曼哈顿自注意力,利用3D曼哈顿距离提供空间先验,同时提出的创新分解和融合机制显著降低了计算复杂度。
  • 我们提出了一个双路径特征残差交互网络,通过残差连接提取和融合多尺度特征,并通过独立提取和局部交互式曼哈顿注意力实现显式的特征匹配。

传统仿射配准方法

传统的仿射配准方法从基于简单特征匹配的优化技术发展到更复杂的能量最小化[15]和概率建模方法[16]。最初,仿射配准通常依赖于迭代优化来最小化固定图像和移动图像之间的距离度量,如均方误差(SSD)[17]或基于互信息(MI)的方法。Brian B. Avants等人[18]、[19]提出了ANTS,该方法使用互信息

HMA-net

我们模型的整体架构如图2所示。该过程分为S个阶段,每个阶段都采用双流结构,分别对输入的F(固定图像)和M(移动图像)进行特征提取。我们设置S=3Ki=4。每个阶段包括一个卷积补丁嵌入层、Ki个RMT3D编码块,以及局部交互式曼哈顿注意力模块,其中Ki表示RMT3D编码块的数量。每个阶段创建输入

数据集和预处理

我们使用了OASIS数据集[40](共414个T1加权脑部MRI扫描)和LPBA40数据集[41](共40个脑部MRI扫描)来评估我们方法在脑模板匹配标准化(MNI152)[42]、[43]、[44]和基于图谱的配准任务中的性能。
OASIS数据集。 OASIS数据集是一个公开可用的脑部MRI扫描集合,广泛用于衰老和神经退行性疾病的研究。在我们的研究中,所有MRI扫描首先被重新采样和调整大小至

结论

在本文中,我们提出了一种用于无监督3D仿射医学图像配准的混合曼哈顿注意力网络HMA-Net。为了平衡配准精度和效率,我们提出了RMT3D模块,该模块包括两个关键组件。3D-MSA模块通过引入曼哈顿距离作为空间先验来增强局部空间感知。FMSA模块通过将3D体积分解为2D切片并应用轻量级的一维注意力来降低计算成本。

CRediT作者贡献声明

郭鹏尹:写作 – 审稿与编辑,写作 – 原始草稿,资源,形式分析,数据管理。陈庞:监督,资源。杨佐:监督,资源。杜平:监督,资源。刘雷:监督,资源。严丽:监督,资源。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

致谢

本工作部分得到了中国山东省重点研发计划(项目编号:2025CXPT096)、国家自然科学基金(项目编号:61976127)以及山东省自然科学基金(项目编号:ZR2024MF030、ZR2022QF053)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号