利用Swin Transformer和UPerNet深度学习模型的组合，提升多个卫星传感器中的云检测能力

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Remote Sensing of Environment》：Enhancing cloud detection across multiple satellite sensors using a combined Swin Transformer and UPerNet deep learning model

【字体：大中小】 时间：2026年01月13日 来源：Remote Sensing of Environment 11.4

编辑推荐：

　　云检测模型STUPmask结合Swin Transformer与UPerNet，利用自注意力机制捕捉全局上下文，多尺度特征融合提升复杂场景云识别精度。在Landsat 8和Sentinel-2数据集上达到97.51%和96.27%分类准确率，有效应对雪地、沙漠等高反照率地表，并适配4-2km多分辨率跨轨道卫星数据（如GaoFen-2、Himawari-8），验证了跨传感器泛化能力。

庞树林|李占清|孙琳|曹彪|王志辉|奚新源|史晓航|徐静|魏静

北京师范大学地理科学学院卫星应用创新研究中心，中国北京

摘要

云检测在许多卫星遥感数据应用中至关重要。传统的云检测方法通常在像素级别进行操作，依赖于经验性调整的阈值，或者最近基于训练数据集的机器学习分类方案。受到Transformer自注意力机制和卷积神经网络在特征提取方面成功应用的启发，我们提出了一种新的编码器-解码器方法，该方法能够利用多尺度特征捕捉全局和区域背景。该模型结合了两种先进的深度学习技术——Swin Transformer和UPerNet（简称STUPmask），在云检测精度和适应性方面取得了显著提升，能够处理从可见光到热红外光谱范围、从米级到公里级的空间分辨率，以及包括冰面和沙漠在内的多种地表类型。STUPmask模型的训练和验证使用了来自Landsat 8和Sentinel-2的手动云验证掩膜数据集。实验结果显示，该模型在云量估计上与参考掩膜相比仅有微小差异（Landsat 8为0.27%，Sentinel-2为-0.81%），同时具有较高的整体分类精度（Landsat 8为97.51%，Sentinel-2为96.27%）。值得注意的是，该模型在检测破碎、稀薄和半透明云层方面表现出色，尤其是在城市和裸露地表等明亮场景中，尤其是在雪地和冰面上的识别效果也令人满意。此外，该模型还能适应来自低地球轨道（LEO）和地球静止轨道（GEO）平台的多种卫星数据，这些卫星的空间分辨率各不相同（4米至2公里），总体准确率为94.21%-97.11%。这些成功表明，该方法在处理不同光谱通道和空间分辨率的卫星图像时具有广泛的应用前景。

引言

云层普遍存在于地球上，覆盖面积约为60%-70%，尤其是在海洋和热带地区（Asner, 2001; King et al., 2013; Y. C. Zhang et al., 2004）。云层会阻碍从太空对地表的观测，给大气和地表参数的反演带来很大挑战（B. Li et al., 2021; Schneider et al., 2010; Wang et al., 2023; Wei et al., 2023, Wei et al., 2024; Zhen et al., 2023）。然而，云层出现的概率取决于卫星过境时间和像素大小（Zhu and Woodcock, 2012, Zhu and Woodcock, 2014）。云层的非均匀性、形态及其与下层地表的相互作用进一步增加了检测难度，尤其是在明亮地表上（Li and Leighton, 1991）。因此，云层识别在基于卫星的地球观测中至关重要（Arvidson et al., 2001; Irish, 2000）。

卫星数据量的指数级增长需要大量的人力、时间和成本（Li et al., 2016; Tamiminia et al., 2020）。为此，人们开发了许多自动云检测方法，主要采用经验性调整的阈值，因为这些方法简单且相对准确，例如用于高级非常高分辨率辐射计（AVHRR）（Kriebel et al., 1989; Saunders and Kriebel, 1988; Stowe et al., 1991）和中分辨率成像光谱辐射计（MODIS）（Ackerman et al., 1998; Frey et al., 2008）的方法。对于高空间分辨率的传感器，Zhu and Woodcock（2012）提出了Fmask算法，该算法结合了多种光谱测试来区分云层和无云场景的光谱特征，适用于Landsat和Sentinel-2图像（Qiu et al., 2017, Qiu et al., 2019; Zhu et al., 2015）。Sun et al.（2016）基于混合像素分解理论和先验地表反射率模型数据库，为Landsat 8图像开发了一种动态阈值算法。Frantz et al.（2018）利用视差效应提高了Sentinel-2图像中的云检测精度，从而区分潜在云像素中的云层和明亮地表。这些方法基于同一区域在不同时间下的云层与清晰图像的光谱差异，但准确性有所不同（Frantz et al., 2015; Gómez-Chova et al., 2017; Hagolle et al., 2010; Jin et al., 2013; Zhu and Woodcock, 2014）。尽管这些方法有很多优点，但它们存在一些共同的限制，例如在明亮表面（如裸露地表和雪地）上由于与云层的对比度低而无法有效检测云层。此外，多时相方法需要无云像素的时间序列图像，而这在经常被云层遮挡的地区很难获得。

近年来，数据驱动的人工智能方法通过强大的数据挖掘能力从大量输入特征中提取有价值的信息，从而提高了云检测的准确性（Pérez-Suay et al., 2018）。特别是基于“像素级别”机器学习（ML）的模型在没有特定光谱通道的传感器上取得了显著进展，例如决策树（Hollstein et al., 2016; Scaramuzza et al., 2012）、神经网络（Hughes and Hayes, 2014）、贝叶斯网络（Hollstein et al., 2016）、支持向量机（Sui et al., 2019）和随机森林（Ghasemian and Akhoondzadeh, 2018; Wei et al., 2020）。这些“像素级别”ML算法的性能提升源于它们能够迭代优化提取的特征并选择最合适的分类器（Jeppesen et al., 2019）。然而，特征选择过程往往依赖人工干预，并且是点对点的，缺乏整合上下文和全局信息的能力。深度学习（DL）模型，特别是“基于图像特征的”ML模型，如卷积神经网络（CNN），可以同时整合光谱和空间信息，已被广泛应用于图像分类和目标检测（Cheng et al., 2016; Deng et al., 2018）。CNN架构在云检测任务中表现出色，因为它们可以利用云层与下层地表的空间变化差异。深度金字塔网络（Ozkan et al., 2018）、SegNet（Chai et al., 2019）、U-Net（Jeppesen et al., 2019; Wieland et al., 2019; Wright et al., 2024; H. K. Zhang et al., 2024）和多尺度卷积特征融合（MSCFF）（Z. Li et al., 2019）在生成与手动注释相似的云掩膜方面表现出有效性。CNN模型具有强大的泛化能力，并通过正则化技术减少了过拟合（Zheng et al., 2018）。然而，CNN网络的权重是静态的，无法动态适应输入变化。此外，当前研究指出，CNN模型在捕捉长距离依赖性和全局背景方面存在挑战，因为它们的感受野相对较小，难以整合整个图像中的远距离像素（Luo et al., 2016; Xie et al., 2021）。

Transformer作为一种新一代强大的DL框架，通过其自注意力机制在提取全局图像特征方面越来越受欢迎（Vaswani et al., 2017）。它已被应用于卫星图像中的云检测（Singh et al., 2023）。一些基于Transformer的模型被开发出来以提高云检测性能，例如Vision Transformers（Fan et al., 2024; B. Zhang et al., 2023）和Swin Transformer（Tan et al., 2023），以及结合Transformer和CNN的混合模型（Gong et al., 2023; Zhang et al., 2022）。然而，大多数先前的研究主要是针对单一传感器分别训练模型，限制了它们的泛化能力。最近，Wright et al.（2025）开发了一种深度学习OmniCloudMask方法，用于跨Landsat-8、Sentinel-2和PlanetScope卫星的云层和云阴影检测，该方法采用动态Z-score归一化和混合分辨率训练。然而，它主要关注特定的传感器对，未能充分考虑不同传感器在空间分辨率、光谱特性和轨道配置上的显著差异。

为了解决这些问题，我们的研究建立了一个全面的实验性云检测框架，该框架将Swin Transformer（Liu et al., 2021）作为编码器，统一感知解析网络（UPerNet, Xiao et al., 2018）作为解码器。该框架通过利用全局和区域背景以及多尺度特征进行复杂场景分割，同时适应不同图像数据集的变化，从而提高了云检测性能。更重要的是，我们的STUPmask模型首先在两个代表性高分辨率卫星Landsat 8（30米）和Sentinel-2（10米）上进行了预训练，然后使用独立验证和测试数据集进行评估，这些数据集在训练过程中并未使用。我们进一步扩展了模型，使其能够适应从低地球轨道（LEO）到地球静止轨道（GEO）平台的各种空间分辨率的卫星，包括GaoFen-2 PMS（4米）、Aqua MODIS（1公里）和Himawari-8 AHI（2公里）。通过跨多个地球观测平台的广泛实验，我们提供了一个实用且可复制的跨传感器泛化基准。这种方法为大规模预训练如何支持开发鲁棒的跨传感器云检测模型提供了宝贵的见解。

部分摘录

Landsat和Sentinel图像

NASA的Landsat系列卫星仪器提供了超过五十年的高分辨率（约30米）连续记录的地球地表数据。这些数据对于农业、森林覆盖评估、水资源管理和城市扩张等多种应用至关重要。目前，Landsat 8和Landsat 9正在运行，每个卫星都配备了两个传感器：操作陆地成像仪和热红外传感器。这些传感器提供了十一个光谱通道，范围从0.435

STUPmask框架

针对传统DL模型（如CNN）在提取卫星图像全局依赖性方面的局限性，本研究引入了Transformer作为解决方案。Transformer利用自注意力机制有效捕捉空间信息领域中的长距离依赖性，特别是模型捕捉图像中远距离像素之间的关系，这对于检测覆盖大面积或具有相似空间模式的云层至关重要

Landsat 8云检测的定性评估

使用STUPmask模型和官方Landsat 8算法对Landsat 8生物群落图像（30米）进行云检测的结果显示，两种方法在空间模式上具有相似性，并且在不同地表上的云分布与参考云分布高度一致（图3）。总体而言，我们的STUPmask模型和Landsat 8官方（CFmask）算法识别的云层在空间模式上高度相似，并且在黑暗地表上与参考云分布高度一致。

结论

云检测仍然是一个严峻的挑战，因为云层与各种背景物体的区分受到它们动态数量和形状的影响，这些因素在空间和时间上不断变化。传统的基于阈值或ML的方法在处理明亮地表上的薄云或破碎云层时遇到很大困难，尤其是对于空间分辨率高但通道有限的卫星传感器（如Landsat和Sentinel）。本研究提出了一种混合语义分割方法

CRediT作者贡献声明

庞树林：撰写——原始草稿、验证、软件实现、形式分析、数据管理。李占清：撰写——审阅与编辑、监督。孙琳：撰写——审阅与编辑。曹彪：撰写——审阅与编辑、监督。王志辉：验证、数据管理。奚新源：验证、数据管理。史晓航：验证、数据管理。徐静：验证、数据管理。魏静：撰写——审阅与编辑、监督。

利益冲突声明

作者声明没有利益冲突。

致谢

本工作得到了国家自然科学基金（42030606和42271412）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号