PyramidMamba:利用选择性空间状态模型重新思考金字塔特征融合方法,以实现遥感图像的语义分割

《International Journal of Applied Earth Observation and Geoinformation》:PyramidMamba: Rethinking pyramid feature fusion with selective space state model for semantic segmentation of remote sensing imagery

【字体: 时间:2025年10月09日 来源:International Journal of Applied Earth Observation and Geoinformation 8.6

编辑推荐:

  语义分割作为遥感图像理解的基础工具,在复杂空间-时间场景和多尺度地理对象分割中面临挑战。本文提出PyramidMamba网络,通过融合密集空间金字塔池化(DSPP)和金字塔融合Mamba(PFM)模块,解决多尺度特征冗余问题。DSPP采用不同尺度池化增强多粒度特征表达,PFM利用Mamba的动态选择性扫描机制压缩冗余信息。实验表明,PyramidMamba在OpenEarthMap、Vaihingen、Potsdam和LoveDA四类数据集上mIoU分别达到70.8%、84.8%、88.0%和54.8%,优于现有CNN和Transformer方法,且推理速度达73.8 FPS,兼具精度与实时性优势。

  语义分割是遥感图像理解中的基本工具,广泛应用于许多地球观测(Earth Observation, EO)任务中。随着遥感技术的发展,高分辨率遥感图像的语义分割逐渐成为研究热点,因为它对于土地利用与覆盖(Land Use Land Cover, LULC)映射、环境监测以及城市可持续发展等任务至关重要。然而,高分辨率遥感图像语义分割仍面临诸多挑战,包括复杂的时空场景和多尺度地理对象的识别。近年来,深度学习(Deep Learning, DL)技术的迅猛发展,使得基于卷积神经网络(CNN)和Transformer的语义分割方法得到了广泛应用。这些方法都强调了多尺度特征表示在增强地理对象语义信息中的重要性。然而,多尺度特征融合过程中常常伴随着语义冗余问题,因为金字塔特征中包含的语义内容往往高度相似。为了解决这一问题,本文提出了一种基于Mamba架构的语义分割网络,即PyramidMamba。

在PyramidMamba中,我们设计了一种可插拔的Mamba解码器,其中包括一个密集空间金字塔池化(Dense Spatial Pyramid Pooling, DSPP)模块和一个金字塔融合Mamba(Pyramid Fusion Mamba, PFM)模块。DSPP模块通过应用不同的池化尺度来编码丰富的多尺度语义信息,而PFM模块则利用Mamba的特性来减少特征融合中的语义冗余。这些设计使得PyramidMamba能够更有效地进行多尺度特征表示,从而提升语义分割的准确性。此外,我们通过消融实验验证了PyramidMamba在增强多尺度特征表示方面的有效性和优越性,同时也展示了其在实时语义分割中的巨大潜力。实验结果显示,PyramidMamba在四个公开数据集上均取得了最先进的性能,包括OpenEarthMap(70.8% mIoU)、ISPRS Vaihingen(84.8% mIoU)、Potsdam(88.0% mIoU)以及LoveDA(54.8% mIoU)数据集。

在论文中,我们还对相关工作进行了综述,涵盖了基于CNN、注意力机制、Transformer以及Mamba的语义分割方法。基于CNN的方法,如U-Net和PSPNet,虽然在语义分割中取得了显著进展,但它们的单尺度感受野限制了对全局上下文信息的捕捉。引入注意力机制的网络,如DANet和CCNet,通过同时捕捉通道和空间维度的全局依赖关系,显著提升了分割效果。而基于Transformer的方法,如ViT和SegFormer,因其纯自注意力结构,能够更有效地建模全局上下文信息。然而,这些方法在计算效率和局部特征表示方面存在不足。为了克服这些限制,Mamba作为一种基于选择性状态空间模型(Selective State Space Model, SSM)的新架构,展现了在处理长序列方面的高效性和独特优势。Mamba利用选择性扫描机制,能够压缩输入令牌中的信息并提取核心语义信息,这为解决多尺度特征融合中的语义冗余问题提供了新的思路。

在方法部分,我们详细介绍了PyramidMamba的结构,包括图像编码器和Mamba解码器。图像编码器采用轻量级CNN(ResNet18)和基于窗口的ViT(Swin-Base)作为基础模块,分别构建了轻量级和高精度的分割网络。Mamba解码器则包括DSPP模块和PFM模块。DSPP模块通过不同的池化尺度来提取多尺度特征,而PFM模块利用标准Mamba块来减少多尺度特征融合中的语义冗余。这些模块共同作用,使得PyramidMamba能够有效地增强多尺度语义表示,从而提升分割精度。此外,我们还设计了一个联合损失函数,结合了交叉熵损失和Dice损失,以应对语义分割数据集中常见的类别不平衡问题。

在实验部分,我们对PyramidMamba进行了详尽的评估。实验采用的四个公开数据集分别是OpenEarthMap、ISPRS Vaihingen、Potsdam和LoveDA。这些数据集涵盖了多种复杂的遥感场景和地理对象,对语义分割算法提出了更高的要求。实验结果表明,PyramidMamba在这些数据集上均取得了优异的性能,特别是在多尺度地理对象的分割上表现出色。此外,我们还通过消融实验验证了各个模块的有效性。例如,通过比较不同版本的网络,我们发现引入DSPP模块可以提升mIoU指标约3.5%,而引入PFM模块则进一步提升了约1.1%。这些结果表明,DSPP和PFM模块在提升多尺度特征表示方面具有重要作用。同时,我们也验证了不同超参数对网络性能的影响,例如池化尺度的选择和输入图像的大小。结果表明,选择适当的池化尺度和输入大小能够有效提升网络的性能和稳定性。

为了进一步验证PyramidMamba的优越性,我们将其与多种先进的语义分割方法进行了对比。这些方法包括基于CNN的网络、基于Transformer的网络、基于Mamba的网络以及一些其他方法。在这些对比中,PyramidMamba不仅在分割精度上表现出色,还在计算效率上具备竞争力。特别是在实时分割任务中,PyramidMamba在保持高精度的同时,能够实现较快的推理速度,满足实际应用的需求。此外,通过可视化比较,我们发现PyramidMamba在分割复杂地理对象和细微结构方面具有显著优势,能够保持分割结果的完整性和准确性。

论文最后总结了PyramidMamba的主要贡献,包括重新思考多尺度特征融合方法,设计了一种基于Mamba的解码器,以及在四个公开数据集上的实验验证。这些贡献不仅为遥感图像的语义分割提供了新的解决方案,也为多尺度特征融合和实时语义分割的研究提供了有益的参考。未来,我们将继续探索Mamba架构在多模态学习和基础模型中的潜力,以进一步提升遥感图像语义分割的性能和效率。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号