WMamba:一种基于小波变换(Wavelet Transform)和Mamba算法的频率解耦增强网络,用于医学图像分割

《Biomedical and Environmental Sciences》:WMamba: A frequency decoupling enhancement network based on Wavelet Transform and Mamba for medical image segmentation

【字体: 时间:2026年02月27日 来源:Biomedical and Environmental Sciences 4.1

编辑推荐:

  针对CNN全局建模不足和Transformer局部细节提取弱的问题,提出基于Wavelet变换与Mamba的WMamba网络,通过分离低频与高频特征并分别增强,有效融合全局与局部信息,在多个医学图像数据集上验证其优越性。

  
刘尚旺|徐若楠|林英海|刘国奇|沈华蕾
河南师范大学计算机与信息工程学院,新乡,453007,中国

摘要

在计算机视觉领域,卷积神经网络(CNN)受限于其有限的感受野,难以捕捉全局特征。尽管变换器(Transformers)弥补了CNN的不足,在提取全局特征方面表现出色,但在高分辨率场景下却面临计算复杂性的问题。如今,Mamba凭借其线性复杂性和全局建模能力展现了巨大潜力。为了有效提取全局和局部特征,我们提出了一种基于小波变换(Wavelet Transform)和Mamba的频率解耦增强网络WMamba,用于医学图像分割。具体而言,我们引入了小波增强Mamba模块来解耦频率,并分别针对不同频率域的特征设计了低频增强模块和高频增强模块。低频增强模块利用SS2D的全局感知能力来增强低频特征;高频增强模块则从多个角度和尺度提取局部细节信息以增强高频特征。在BUSI、Dataset B、PH2、DDTI和STU数据集上的广泛实验表明,WMamba在分割和泛化性能方面优于现有方法,并具有良好的鲁棒性。

引言

医学图像分割是医学图像处理领域的一个重要应用,旨在提取器官或病变的形状和体积等关键信息[1]。随着计算机技术和人工智能的快速发展,深度学习得到了广泛应用,并成为主流趋势[2]。卷积神经网络(CNN)在医学图像分割领域取得了显著成果。特别是UNet[3],凭借其对称的编码器-解码器结构和跳跃连接,实现了从粗略到精细的特征提取和重建。U形架构具有高度的可扩展性,许多后续研究[4]、[5]、[6]都是基于这一框架开发的。然而,由于CNN感受野有限,它们擅长提取局部特征,但在捕捉全局特征方面存在困难[7]。为了解决这一问题,变换器被引入计算机视觉领域,形成了视觉变换器(Vision Transformer,简称ViT)[8]。ViT通过自注意力机制克服了CNN的局限性,能够捕捉更多全局信息,例如SwinUNet[9]和DAE-Former[10]。不过,与CNN相比,ViT在捕捉局部细节方面的能力稍弱。为此,混合CNN-Transformer架构[11]、[12]、[13]、[14]被证明是有效的。然而,变换器的自注意力机制的计算复杂性随输入序列长度的增加而呈二次方增长,给后续任务带来了挑战。
最近,Mamba[15]凭借其线性复杂性在全局特征建模方面取得了一定进展,一定程度上减轻了变换器的高计算负担。与ViT的自注意力机制不同,Mamba是一种选择性结构的状态空间模型,采用单向建模方式。Mamba通过单向扫描将图像从二维空间平铺为一维序列,这种操作破坏了像素之间的局部邻接关系。例如,二维空间中相邻的像素(如边缘像素)在平铺后可能相距甚远,导致高频特征(如边缘和纹理)丢失。在医学图像分割中,这些高频特征对于区分病理组织和正常组织至关重要。Mamba侧重于提取低频全局特征,使其难以满足医学分割中对边缘细节识别的要求。
更重要的是,现有的Mamba模型主要用于空间域建模,而在频率域特征提取方面关注不足。频率域方法能够解耦低频和高频特征,其中低频成分对应全局结构,高频成分关注局部细节——这正是Mamba在高频特征提取方面的不足之处。因此,我们提出了基于小波变换和Mamba的频率解耦增强网络WMamba。该网络利用频率域来弥补Mamba在捕捉局部细节方面的不足,实现了全局特征和局部特征提取的平衡。我们在四个数据集上进行了定量和定性分析,验证了WMamba的有效性。此外,我们还使用在BUSI和Dataset B数据集上训练的模型在STU数据集上评估了其泛化性能。我们的贡献包括:
  • 我们提出了基于小波变换和Mamba的频率解耦增强网络WMamba,该网络巧妙地将小波变换分解的高频细节特征与Mamba处理的低频信息相结合,实现了频率域和空间域特征的深度融合,使WMamba能够更全面地捕捉全局上下文和细粒度局部细节。
  • 我们提出了一个小波块(Wavelet Block),其中包含两个深度可分离卷积块(DSC)和小波增强Mamba模块(WEM),实现了空间域和频率域特征之间的互补增强。WEM模块通过小波变换解耦频率域,并对不同频率域的特征应用不同的增强策略。两个DSC块捕获基本的空间域特征,同时进一步整合和细化频率域特征。
  • 我们提出了低频增强模块(LFE)和高频增强模块(HFE),分别对低频和高频特征进行差异化增强。LFE模块利用SS2D的多方向扫描路径增强低频特征的全局表示能力;HFE模块结合Sobel算子、通道注意力(CA)和多尺度条带卷积(MSC)从多个角度和尺度提取局部细节,从而提升高频特征的细粒度表示。

章节片段

基于CNN的医学图像分割

卷积神经网络(CNN)在医学图像分割任务中得到了广泛应用。UNet采用了U形架构,编码器和解码器对称,不同阶段的特征图通过跳跃连接融合。这种架构能够在少量标记数据的情况下实现高精度分割。UNet++[16]重新设计了编码器-解码器架构,在模块之间增加了密集的跳跃连接,以弥合特征之间的语义差距。

架构概述

WMamba的结构如图1所示,主要由编码器、解码器和跳跃连接组成。编码器的第一层使用DSC块进行初始特征提取并调整特征通道数量。接下来的四层由小波块组成,每层通过小波变换进行下采样。这一模块不仅增强了模型捕捉局部细节和频率信息的能力,还促进了多尺度特征的学习。

数据集

BUSI数据集。BUSI数据集[34]包含2018年收集的780张乳腺超声图像,涵盖600名25至75岁的女性患者。平均分辨率为500 × 500像素,包括133张正常图像、437张良性图像和210张恶性图像。我们的实验仅使用了647张良性及恶性图像。
Dataset B数据集。Dataset B包含163张乳腺超声图像,平均分辨率为760 × 570像素,其中110张为良性图像,53张为恶性图像。

评估指标

我们选择了四个评估指标来评估模型性能,分别是Dice相似系数(Dice)、交并比(IoU)、第95百分位Hausdorff距离(HD95)和平均表面距离(ASD)。Dice用于衡量两组数据之间的相似度,计算预测分割与真实分割之间的重叠部分;IoU用于衡量预测分割与真实分割之间的重叠程度。

结论

我们提出了一种名为WMamba的新医学图像分割方法,利用频率域来弥补Mamba在处理局部细节方面的不足。具体来说,所提出的WEM(小波增强Mamba)模块解耦了频率域,并以不同方式增强低频和高频成分。为了提升模型的低频和高频建模能力,我们设计了LFE模块和HFE模块。

CRediT作者贡献声明

刘尚旺:监督、资源获取、资金申请、正式分析、数据管理。徐若楠:撰写 – 审稿与编辑、初稿撰写、可视化、验证、方法论、数据管理。林英海:监督、软件开发、方法论、数据管理。刘国奇:监督、概念设计。沈华蕾:项目管理、正式分析。

利益冲突声明

作者声明没有已知的财务利益或个人关系可能影响本文的研究工作。

致谢

本工作得到了河南省重点科学技术计划(编号242102210051)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号