光学遥感图像广泛应用于城市规划、环境监测、农业管理和灾害评估等领域[1]、[2]、[3]、[4]。然而,云覆盖是一个重要的干扰因素,会影响遥感图像的实用性。Zhang等人的研究[5]显示,地球表面约66%的区域通常被云覆盖,大面积的云覆盖显著降低了遥感图像的实用性。因此,云检测成为许多遥感分析任务的先决条件。然而,由于云覆盖的高变异性以及云与地面特征(如水体、积雪或冰覆盖区域或沙漠)在低密度云条件下或云边缘的光谱相似性,云检测面临重大挑战。
云检测任务旨在对遥感图像中的云层进行多通道图像分割。近年来,基于深度学习的云检测方法成为研究热点,大致可分为基于卷积神经网络(CNN)的方法和基于Transformer的方法。除了云检测,深度学习技术还广泛应用于卫星图像预处理任务,如云去除和图像重建,其中准确的云检测通常是指导后续处理步骤的基础[6]、[7]、[8]。
基于CNN的方法在提高云检测性能方面做出了显著贡献。Li等人[9]通过在对称编码器-解码器架构的基础上集成多阶段解码特征,显著提高了云检测性能。Jeppesen等人[10]优化了U-Net[11]结构,并使用Landsat-8图像开发了一个高效的云检测网络RS-Net。为了改进Cloud-net[12],Kanu等人[13]引入了孔隙空间金字塔池化(ASPP)[14]和深度可分离卷积[15],并提出了改进的模型CloudX-net。为了提高薄云特征的识别能力,Zhang等人[16]引入了小波变换和暗通道先验,并在网络的浅层使用多尺度扩张卷积来捕获更多空间信息,显著提高了检测性能。Wu等人[17]提出了Boundary Net,旨在更好地捕捉云的可变视觉形态并细化云边界。Zhai等人[18]将多级特征和各种注意力机制集成到U-Net架构中,提出了AMCD-Net。尽管这些基于CNN的方法在密集云区域有效,但它们主要依赖于局部感受野和层次化特征聚合,这通常限制了它们在云碎片化或空间稀疏时捕获长距离依赖性和保持全局一致性的能力。
最近,视觉Transformer(ViT)逐渐被引入到云检测中。Zhang等人[19]、[20]、[21]提出的Cloudformer系列成功应用了ViT强大的全局特征建模能力进行云检测。在CloudViT中,Zhang等人[22]通过由暗通道先验引导的网络学习增强了图像特征。Singh等人[23]引入了空间-光谱注意力Transformer,取代了传统的卷积操作。Ge等人[24]提出了轻量级CNN-Transformer网络CD-CTFM,旨在提取局部和全局特征,从而进一步提高云检测性能。Feng等人[25]利用全局上下文和局部特征增强了模型提取空间和语义特征的能力,并结合ASPP实现了多尺度特征表示。虽然这些基于Transformer的方法显著增强了全局上下文建模,但它们的二次计算复杂性和大量的参数化对大规模或资源受限的遥感应用构成了挑战。
总体而言,现有的云检测方法在局部特征建模和全局上下文表示之间存在根本的权衡,这促使人们探索更高效的架构。
最近,高效序列建模架构(如Mamba及其视觉变体[26]、[27]、[28]、[29])因其线性计算复杂性和强大的全局建模能力而受到广泛关注。尽管这些方法在高级视觉任务中表现出有希望的性能,但它们在遥感云检测中的应用仍然有限。特别是,现有的基于Mamba的视觉模型主要设计用于通用视觉识别或图像恢复任务,并没有明确解决卫星云图像的特征挑战,如碎片化云分布、薄云边界和明显的多尺度空间变异性。
此外,最近提出的Mamba类线性注意力(MLLA)[29]将线性注意力机制引入Mamba框架,实现了全局依赖建模和计算效率之间的良好平衡,为高效的全局建模提供了有前景的实现范式。受此启发,本研究探讨了将MLLA应用于遥感云检测任务的可行性。同时,小波变换为高频信息提供了明确的通道[27]、[30];然而,在云检测场景中,这种频域表示与高效全局依赖建模之间的协同设计仍有待进一步探索。
尽管有上述进展,现有方法在两个代表性但具有挑战性的场景中仍然存在困难,即碎片化云和薄云,如图1所示。例如,碎片化云(如图1(a)所示)具有分散的多尺度特征,其不均匀的像素分布和尺度差异使得模型难以捕捉连贯的云结构。薄云(如图1(b)所示)由于光学厚度低且与背景纹理的光谱相似性高,难以与非云区域区分,仅依靠局部特征容易误分类。无论是碎片化云还是薄云检测,都对不同空间尺度和光学条件下的背景干扰非常敏感,这突显了有效整合多尺度局部特征与全局上下文信息的必要性。这些观察表明,有效的云检测需要一种能够同时建模多尺度局部结构和全局上下文依赖性的统一机制,同时保留高频边界细节。
为了解决这些挑战以及局部和全局建模之间的权衡,本文提出了一种基于小波增强多尺度Mamba类线性注意力解码(WMSMLAD)的解码器,作为我们云检测框架的核心解码模块。WMSMLAD基于小波增强多尺度Mamba类线性注意力(WMSMLA)模块以及加权融合(WF)策略来平衡编码和解码特征。具体来说,解码器结合多尺度卷积和Mamba类线性注意力来共同建模细粒度的局部结构和长距离全局依赖性,这对于处理碎片化云分布至关重要。此外,引入了Haar小波变换来明确增强高频细节和云边界,从而提高与背景区域光谱相似的薄云的区分能力。加权融合(WF)模块动态调整编码器和解码器特征的贡献,进一步提高了特征利用和云检测精度。主要贡献如下:
- (1)
我们介绍了WMSMLAD解码器,它在实现性能和模型复杂度之间的有效权衡的同时,融合了多尺度局部特征和全局线性依赖性。
- (2)
我们设计了基于小波增强多尺度Mamba类线性注意力(WMSMLA)模块,该模块集成了特征分解(FD)、小波变换和多尺度线性注意力机制。这有效地抑制了无关特征,并增强了捕捉云的多尺度细粒度特征和全局结构信息的能力,从而提高了云检测性能和泛化能力。
- (3)
我们介绍了加权融合(WF)模块,它动态调整编码器和解码器特征之间的权重,进一步提高了云检测精度。
- (4)
使用ConvNeXt-tiny作为编码器,所提出的解码器在MODIS和CHLandsat数据集上取得了有竞争力的性能,mIoU为91.53%,MAE为0.0599。