《Physical Communication》:HRVM-UNet: Dual-Path Vision Mamba U-Net with Frequency-Aware Skip Fusion for High-Resolution Remote Sensing Semantic Segmentation
编辑推荐:
高分辨率遥感语义分割中,HRVM-UNet通过HR-VSS模块结合全局状态空间模型和局部多尺度 dilated 卷积,以及频率感知跳融合(FASF)模块实现空间-频率耦合的特征融合,提升边界精度。在ISPRS Vaihingen、Potsdam和LoveDA数据集上优于CNN、Transformer及Mamba基线。
刘涛|王新培|邓旭轩
辽宁工程技术大学,中国辽宁省葫芦岛市龙湾南路188号,125105
摘要
高分辨率遥感语义分割需要同时建模长距离空间依赖性和保持细粒度边界。卷积网络效率较高,但往往难以捕捉全局上下文;而Transformer在处理大图像时会产生二次方的自注意力开销。为了解决这些问题,我们提出了HRVM-UNet,这是一个基于Vision Mamba(VMamba)构建的不对称编码器-解码器分割框架。HRVM-UNet引入了(i)一个双路径HR-VSS模块,它将选择性扫描的状态空间全局路径与多尺度膨胀卷积局部路径相结合,从而实现互补的全局-局部表示学习;以及(ii)一个频率感知的跳跃融合(FASF)模块,该模块将跳跃整合视为空间-频率耦合:CARAFE风格的内容自适应上采样恢复了结构一致性,基于DCT的多光谱通道注意力强调了边界和纹理线索,轻量级门控机制自适应地平衡了编码器-解码器之间的信息。此外,还采用了自上而下的特征金字塔来增强多尺度表示,并通过堆叠的HR-VSS模块和坐标注意力加强了最终解码阶段,以实现更精确的空间定位。在三个公共数据集(ISPRS Vaihingen、ISPRS Potsdam和LoveDA)上的实验表明,HRVM-UNet在分割性能上持续优于基于CNN、Transformer和Mamba的基线模型,我们的类别间和消融分析将这种优势归因于所提出的全局-局部建模和频率感知融合策略。
引言
遥感(RS)语义分割为大规模航空或卫星图像的每个像素分配一个语义标签,使其能够应用于环境监测、城市规划和精准农业等领域[1]、[2]。近年来,深度学习显著推进了RS分割技术[1]、[3]、[4]、[5]、[6]。卷积神经网络(CNN)在计算上高效,但由于局部感受野的限制,在建模长距离依赖性方面存在不足[7]、[8]。视觉Transformer(ViTs)改善了全局建模能力,但通常会受到二次方自注意力复杂性的影响,这在处理高分辨率图像时变得不可行[9]、[10]。同时,像SegFormer、Mask2Former和UNetFormer这样的通用分割架构为密集预测提供了强大的Transformer基线,但它们的性能和内存占用仍可能受到极高分辨率遥感场景和严格边界要求的挑战[4]、[11]、[12]。状态空间模型(SSMs)[13]最近作为自注意力的替代方案出现,具有线性复杂性,适用于长距离依赖性建模。特别是Mamba[14]及其视觉变体(例如ViM[15])已被适配用于密集预测,几个遥感分割网络(例如PanMamba[16]、Rmamba[17]和VM-UNet[18])展示了SSM框架在高分辨率图像中的潜力。除了纯SSM设计外,最近的研究还探索了与扩散引导或鲁棒性模块的结合,例如用于高分辨率RSI分割的DiffMamba[19]、用于多模态遥感中的尺度对齐和上下文融合的SACFNet[20],以及用于抗噪声SAR分割的NRSANet[21]。这些进展促使我们构建了一个高分辨率、高效且鲁棒的U形架构,并改进了跳跃融合机制。
除了分割之外,受Mamba/Transformer启发的设计也应用于遥感SAR/高光谱/多模态图像分类(例如CFAT、DEMUNet、Mamba-DCAU、CADSM和MTMixer),表明高效的长距离建模在各种RS模式中都具有广泛的好处[22]、[23]、[24]、[25]、[26]。在U形网络中,跳跃连接中的特征融合设计对整体性能至关重要——这不仅通过将VMamba集成到编码器-解码器框架中来提高效率和分割精度。传统的跳跃连接只是简单地将低级编码器特征与高级解码器特征连接起来。然而,这种直接的合并策略未能充分利用多级特征之间的互补性,从而限制了模型区分细微低级细节和抽象高级语义的能力。这种粗略的集成往往导致细粒度对象信息的丢失。作为回应,最近的研究越来越重视注意力机制和多尺度特征学习在推进语义分割中的作用。AFF模块[27]和Multiattention Network(MANet)[28]使用多尺度特征融合策略有效解决了这个问题,但在高分辨率RS图像中对小目标的分割效果仍然有限。
由于严重的类内方差(例如,具有不同材料的屋顶)、类间相似性(例如,道路与不透水表面)以及由视角和场景布局引起的强烈尺度变化,高分辨率遥感语义分割仍然具有挑战性。同时,下游映射任务通常需要准确的边界划分,因此仅依赖粗略的基于区域的监督是不够的。传统的带有跳跃连接的编码器-解码器网络通过结合多级语义和空间细节实现了强大的性能[2]、[7]、[29]、[30];然而,它们的局部卷积感受野限制了长距离依赖性的建模。基于Transformer的模型改善了全局上下文推理[31]、[32],但在处理高分辨率输入时可能会遇到二次方复杂性的问题,这成为瓶颈。这促使我们开发出轻量级的全球建模替代方案,能够在保持密集预测准确性的同时实现线性扩展。
与最近的Mamba-U变体(如VM-UNet[18]和CHVM-UNet[33]、H-vmunet[34]相比,我们在模块层面明确分离了互补的全局-局部学习。具体来说,HR-VSS通过增加一个显式的局部多尺度膨胀卷积分支来增强选择性扫描的全局SSM建模,从而恢复可以通过纯顺序扫描平滑的细结构和小对象,而FASF则用频率-结构解耦的融合(基于CARAFE的低频结构重建+基于DCT的高频边界重新校准+门控融合)替换了传统的跳跃连接/注意力。
我们进一步提供了模块级别的对齐和敏感性分析(表3、13和14),以明确哪些设计选择是必不可少的。
在本文中,我们提出了HRVM-UNet,这是一种基于不对称U形编码器-解码器架构的新型图像分割模型,其基础是Vision Mamba。该模型的核心是HR-VSS模块,一个用于多尺度特征提取的高效双路径模块。为了解决传统跳跃连接的局限性,作者提出了一个频率感知的跳跃融合(FASF)模块。通过将SSM的长距离依赖性建模与CNN的局部特征提取能力相结合,HRVM-UNet旨在高效处理高分辨率图像,同时精确保留空间细节和语义信息。我们的关键设计思路是将高分辨率RS分割中的跳跃融合视为一个空间-频率问题:内容自适应上采样主要恢复低频结构一致性,而光谱重加权强调高频边界和纹理线索,轻量级门控机制自适应地平衡了这两种来源。
我们的主要贡献如下:
- •
HR-VSS模块。我们设计了一个双路径模块,它结合了(i)用于长距离依赖性建模的选择性扫描SSM分支和(ii)用于局部相关性增强的多尺度膨胀卷积分支,随后是坐标注意力和残差连接以实现稳定优化。
- •
频率感知的跳跃融合(FASF)。我们提出了一个频率感知的跳跃融合模块,它结合了(i)用于结构一致重建的CARAFE风格内容自适应上采样,(ii)用于频率感知增强的基于DCT的多光谱通道注意力,以及(iii)用于减轻朴素跳跃连接中的语义差距和边界模糊的空间自适应门控融合。我们还提供了实证设计洞察,即在相似的计算成本下,基于DCT的光谱注意力比基于FFT的光谱注意力更有效(表11)。
- •
非对称HRVM-UNet架构。我们构建了一个具有分层多级输出和深度监督的非对称编码器-解码器架构,以平衡高分辨率RS语义分割的准确性和效率。
本文的其余部分结构如下。第2节回顾了相关工作。第3节详细阐述了所提出的方法及其核心组成部分。第4节描述了实验设置和评估指标,并在第4节中通过三个公共数据集验证了我们方法的优越性。最后,第5节总结了关键发现并讨论了它们的意义。
相关工作
相关工作
在本节中,我们简要回顾了最近关于SSM遥感图像分割的方法,包括U-Net及其结构变体。
方法
在本节中,我们介绍了HRVM-UNet,这是一个基于Vision Mamba为高分辨率遥感图像量身定制的非对称U形分割网络。符号说明。设表示输入的RGB图像,,其中B是批量大小,C是通道数,(h, w)是空间分辨率。元素级乘积表示为⊙,通道连接表示为[?·?, ?·?]。Sigmoid函数表示为
实验
在本节中,我们对高分辨率RS图像分割任务进行了全面的实验。
结论
在本文中,我们提出了HRVM-UNet,这是一种基于非对称Vision Mamba的编码器-解码器,用于高分辨率遥感语义分割。该模型引入了一个双路径HR-VSS模块来共同捕获长距离全局上下文和局部细节,以及一个频率感知的跳跃融合(FASF)模块来在整合多级特征时更好地保持边界。结合自上而下的特征金字塔和加强的最终解码阶段,HRVM-UNet实现了持续的改进。
未引用的参考文献
缺失的引用表2、表7、表15、表16
CRediT作者贡献声明
刘涛:撰写 – 审稿与编辑,项目管理,资金获取。王新培:撰写 – 原始草稿,可视化,软件,方法论,调查。邓旭轩:监督,形式分析。
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。