基于小波增强的Mamba类多尺度线性注意力解码算法在遥感云检测中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Remote Sensing Applications: Society and Environment》：Wavelet-Enhanced Mamba-Like Multi-Scale Linear Attention Decoding for Remote Sensing Cloud Detection

【字体：大中小】 时间：2026年01月13日 来源：Remote Sensing Applications: Society and Environment 3.8

编辑推荐：

　　云检测是遥感图像预处理的关键步骤，现有方法在碎片云和薄云场景中存在挑战。本文提出WMSMLAD方法，通过Haar小波变换增强高频细节，结合多尺度Mamba-like线性注意力机制建模全局依赖与局部特征，并引入加权融合模块动态平衡编码器与解码器特征。实验表明，该方法在MODIS和CHLandsat数据集上分别达到91.53%的mIoU和0.0599的MAE，有效提升了复杂云场景的检测性能。

Hui Gao|Xianjun Du

兰州理工大学自动化与电气工程学院，中国兰州730050

摘要

云检测是遥感图像预处理的关键步骤，但现有方法在处理碎片化和薄云时面临挑战。碎片化云具有分散的多尺度特征，而薄云在光学上与非云区域相似且分布稀疏，仅依靠局部特征难以区分。因此，联合建模全局和局部特征至关重要。为了解决这些问题同时保持线性复杂度，本文提出了一种基于小波增强多尺度Mamba线性注意力解码器（WMSMLAD）的方法。WMSMLAD由三个部分组成：WMSMLA模块、加权融合（WF）模块和云头部（CH）模块。WMSMLA模块通过特征分解（FD）模块提取空间特征分布，并使用多层感知器（MLP）处理通道交互。FD模块抑制无关特征，而WMSMLA通过Haar小波变换增强全局信息并细化特征边界。它结合多尺度卷积和Mamba线性注意力（MLLA）机制来捕获多尺度局部特征和全局依赖性。WF模块动态调整编码和解码特征之间的权重，最终通过CH模块输出云掩码。实验结果表明，WMSMLAD在对比方法中表现出竞争力，其在MODIS数据集上的mIoU为91.53%，在CHLandsat数据集上的MAE为0.0599。

引言

光学遥感图像广泛应用于城市规划、环境监测、农业管理和灾害评估等领域[1]、[2]、[3]、[4]。然而，云覆盖是一个重要的干扰因素，会影响遥感图像的实用性。Zhang等人的研究[5]显示，地球表面约66%的区域通常被云覆盖，大面积的云覆盖显著降低了遥感图像的实用性。因此，云检测成为许多遥感分析任务的先决条件。然而，由于云覆盖的高变异性以及云与地面特征（如水体、积雪或冰覆盖区域或沙漠）在低密度云条件下或云边缘的光谱相似性，云检测面临重大挑战。

云检测任务旨在对遥感图像中的云层进行多通道图像分割。近年来，基于深度学习的云检测方法成为研究热点，大致可分为基于卷积神经网络（CNN）的方法和基于Transformer的方法。除了云检测，深度学习技术还广泛应用于卫星图像预处理任务，如云去除和图像重建，其中准确的云检测通常是指导后续处理步骤的基础[6]、[7]、[8]。

基于CNN的方法在提高云检测性能方面做出了显著贡献。Li等人[9]通过在对称编码器-解码器架构的基础上集成多阶段解码特征，显著提高了云检测性能。Jeppesen等人[10]优化了U-Net[11]结构，并使用Landsat-8图像开发了一个高效的云检测网络RS-Net。为了改进Cloud-net[12]，Kanu等人[13]引入了孔隙空间金字塔池化（ASPP）[14]和深度可分离卷积[15]，并提出了改进的模型CloudX-net。为了提高薄云特征的识别能力，Zhang等人[16]引入了小波变换和暗通道先验，并在网络的浅层使用多尺度扩张卷积来捕获更多空间信息，显著提高了检测性能。Wu等人[17]提出了Boundary Net，旨在更好地捕捉云的可变视觉形态并细化云边界。Zhai等人[18]将多级特征和各种注意力机制集成到U-Net架构中，提出了AMCD-Net。尽管这些基于CNN的方法在密集云区域有效，但它们主要依赖于局部感受野和层次化特征聚合，这通常限制了它们在云碎片化或空间稀疏时捕获长距离依赖性和保持全局一致性的能力。

最近，视觉Transformer（ViT）逐渐被引入到云检测中。Zhang等人[19]、[20]、[21]提出的Cloudformer系列成功应用了ViT强大的全局特征建模能力进行云检测。在CloudViT中，Zhang等人[22]通过由暗通道先验引导的网络学习增强了图像特征。Singh等人[23]引入了空间-光谱注意力Transformer，取代了传统的卷积操作。Ge等人[24]提出了轻量级CNN-Transformer网络CD-CTFM，旨在提取局部和全局特征，从而进一步提高云检测性能。Feng等人[25]利用全局上下文和局部特征增强了模型提取空间和语义特征的能力，并结合ASPP实现了多尺度特征表示。虽然这些基于Transformer的方法显著增强了全局上下文建模，但它们的二次计算复杂性和大量的参数化对大规模或资源受限的遥感应用构成了挑战。

总体而言，现有的云检测方法在局部特征建模和全局上下文表示之间存在根本的权衡，这促使人们探索更高效的架构。

最近，高效序列建模架构（如Mamba及其视觉变体[26]、[27]、[28]、[29]）因其线性计算复杂性和强大的全局建模能力而受到广泛关注。尽管这些方法在高级视觉任务中表现出有希望的性能，但它们在遥感云检测中的应用仍然有限。特别是，现有的基于Mamba的视觉模型主要设计用于通用视觉识别或图像恢复任务，并没有明确解决卫星云图像的特征挑战，如碎片化云分布、薄云边界和明显的多尺度空间变异性。

此外，最近提出的Mamba类线性注意力（MLLA）[29]将线性注意力机制引入Mamba框架，实现了全局依赖建模和计算效率之间的良好平衡，为高效的全局建模提供了有前景的实现范式。受此启发，本研究探讨了将MLLA应用于遥感云检测任务的可行性。同时，小波变换为高频信息提供了明确的通道[27]、[30]；然而，在云检测场景中，这种频域表示与高效全局依赖建模之间的协同设计仍有待进一步探索。

尽管有上述进展，现有方法在两个代表性但具有挑战性的场景中仍然存在困难，即碎片化云和薄云，如图1所示。例如，碎片化云（如图1(a)所示）具有分散的多尺度特征，其不均匀的像素分布和尺度差异使得模型难以捕捉连贯的云结构。薄云（如图1(b)所示）由于光学厚度低且与背景纹理的光谱相似性高，难以与非云区域区分，仅依靠局部特征容易误分类。无论是碎片化云还是薄云检测，都对不同空间尺度和光学条件下的背景干扰非常敏感，这突显了有效整合多尺度局部特征与全局上下文信息的必要性。这些观察表明，有效的云检测需要一种能够同时建模多尺度局部结构和全局上下文依赖性的统一机制，同时保留高频边界细节。

为了解决这些挑战以及局部和全局建模之间的权衡，本文提出了一种基于小波增强多尺度Mamba类线性注意力解码（WMSMLAD）的解码器，作为我们云检测框架的核心解码模块。WMSMLAD基于小波增强多尺度Mamba类线性注意力（WMSMLA）模块以及加权融合（WF）策略来平衡编码和解码特征。具体来说，解码器结合多尺度卷积和Mamba类线性注意力来共同建模细粒度的局部结构和长距离全局依赖性，这对于处理碎片化云分布至关重要。此外，引入了Haar小波变换来明确增强高频细节和云边界，从而提高与背景区域光谱相似的薄云的区分能力。加权融合（WF）模块动态调整编码器和解码器特征的贡献，进一步提高了特征利用和云检测精度。主要贡献如下：

(1)
我们介绍了WMSMLAD解码器，它在实现性能和模型复杂度之间的有效权衡的同时，融合了多尺度局部特征和全局线性依赖性。
(2)
我们设计了基于小波增强多尺度Mamba类线性注意力（WMSMLA）模块，该模块集成了特征分解（FD）、小波变换和多尺度线性注意力机制。这有效地抑制了无关特征，并增强了捕捉云的多尺度细粒度特征和全局结构信息的能力，从而提高了云检测性能和泛化能力。
(3)
我们介绍了加权融合（WF）模块，它动态调整编码器和解码器特征之间的权重，进一步提高了云检测精度。
(4)
使用ConvNeXt-tiny作为编码器，所提出的解码器在MODIS和CHLandsat数据集上取得了有竞争力的性能，mIoU为91.53%，MAE为0.0599。

为清晰起见，本文中使用的缩写在附录A中进行了总结。

方法论

所提出模型的整体架构如图2所示，主要由基于CNN的编码器和小波增强多尺度Mamba类线性注意力解码器（WMSMLAD）解码器组成。在编码器中，使用ConvNeXt-Tiny[31]作为骨干网络从输入的RGB图像中提取多尺度层次特征。解码器使用加权融合（WF）模块和WMSMLA模块逐步整合不同尺度的编码特征，生成

数据集描述

我们在两个数据集上进行训练、验证和测试：MODIS数据集[39]和CHLandsat数据集[40]。

MODIS数据集：该数据集包含复杂的低分辨率场景，共有1462张图像。按照[39]中概述的处理方法，原始图像被裁剪成512×512的补丁。裁剪后，数据集分为17,880张用于训练，1,200张用于验证，2,250张用于测试。为了简化训练过程，我们提取了RGB通道数据

实现细节

所有实验都在单个NVIDIA RTX 4090 GPU上使用PyTorch[44]运行。我们使用了AdamW[45]优化器，初始学习率为1e-4，并采用了余弦退火调度。在训练过程中，我们还采用了各种数据增强策略，包括随机缩放（缩放因子∈ {0.75, 1.0, 1.25}）、随机垂直翻转和随机水平翻转。模型在MODIS数据集上训练了100个周期，在CHLandsat数据集上训练了60个周期，批量大小为32。

讨论

本节讨论了所提出的WMSMLAD解码器在光学遥感图像云检测中的优势、局限性和未来发展方向。讨论重点在于其在具有挑战性的云场景中的有效性、剩余的失败案例以及扩展到更广泛遥感应用的潜力。

优势：所提出的WMSMLAD解码器联合建模全局上下文依赖性和局部多尺度特征，从而提高了云的结构一致性

结论

本文提出了一种用于光学遥感图像云检测的小波增强多尺度Mamba类线性注意力解码器（WMSMLAD）。通过结合基于小波的频率增强和多尺度Mamba类线性注意力，所提出的解码器有效地建模了局部结构和全局上下文依赖性，这对于检测碎片化云和薄云边界至关重要。在两个广泛使用的云检测基准测试上的实验结果证明了

CRediT作者贡献声明

Xianjun Du：写作 – 审稿与编辑、监督、项目管理、方法论、资金获取、正式分析、数据管理、概念化。Hui Gao：写作 – 审稿与编辑、原始草稿编写、可视化、验证、监督、软件、资源管理、方法论、概念化

资金声明

本工作得到了国家自然科学基金（62241307）和甘肃省科技计划（22YF7FA166）的支持。

利益冲突声明

? 作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号