云层普遍存在于地球上,覆盖面积约为60%-70%,尤其是在海洋和热带地区(Asner, 2001; King et al., 2013; Y. C. Zhang et al., 2004)。云层会阻碍从太空对地表的观测,给大气和地表参数的反演带来很大挑战(B. Li et al., 2021; Schneider et al., 2010; Wang et al., 2023; Wei et al., 2023, Wei et al., 2024; Zhen et al., 2023)。然而,云层出现的概率取决于卫星过境时间和像素大小(Zhu and Woodcock, 2012, Zhu and Woodcock, 2014)。云层的非均匀性、形态及其与下层地表的相互作用进一步增加了检测难度,尤其是在明亮地表上(Li and Leighton, 1991)。因此,云层识别在基于卫星的地球观测中至关重要(Arvidson et al., 2001; Irish, 2000)。
卫星数据量的指数级增长需要大量的人力、时间和成本(Li et al., 2016; Tamiminia et al., 2020)。为此,人们开发了许多自动云检测方法,主要采用经验性调整的阈值,因为这些方法简单且相对准确,例如用于高级非常高分辨率辐射计(AVHRR)(Kriebel et al., 1989; Saunders and Kriebel, 1988; Stowe et al., 1991)和中分辨率成像光谱辐射计(MODIS)(Ackerman et al., 1998; Frey et al., 2008)的方法。对于高空间分辨率的传感器,Zhu and Woodcock(2012)提出了Fmask算法,该算法结合了多种光谱测试来区分云层和无云场景的光谱特征,适用于Landsat和Sentinel-2图像(Qiu et al., 2017, Qiu et al., 2019; Zhu et al., 2015)。Sun et al.(2016)基于混合像素分解理论和先验地表反射率模型数据库,为Landsat 8图像开发了一种动态阈值算法。Frantz et al.(2018)利用视差效应提高了Sentinel-2图像中的云检测精度,从而区分潜在云像素中的云层和明亮地表。这些方法基于同一区域在不同时间下的云层与清晰图像的光谱差异,但准确性有所不同(Frantz et al., 2015; Gómez-Chova et al., 2017; Hagolle et al., 2010; Jin et al., 2013; Zhu and Woodcock, 2014)。尽管这些方法有很多优点,但它们存在一些共同的限制,例如在明亮表面(如裸露地表和雪地)上由于与云层的对比度低而无法有效检测云层。此外,多时相方法需要无云像素的时间序列图像,而这在经常被云层遮挡的地区很难获得。
近年来,数据驱动的人工智能方法通过强大的数据挖掘能力从大量输入特征中提取有价值的信息,从而提高了云检测的准确性(Pérez-Suay et al., 2018)。特别是基于“像素级别”机器学习(ML)的模型在没有特定光谱通道的传感器上取得了显著进展,例如决策树(Hollstein et al., 2016; Scaramuzza et al., 2012)、神经网络(Hughes and Hayes, 2014)、贝叶斯网络(Hollstein et al., 2016)、支持向量机(Sui et al., 2019)和随机森林(Ghasemian and Akhoondzadeh, 2018; Wei et al., 2020)。这些“像素级别”ML算法的性能提升源于它们能够迭代优化提取的特征并选择最合适的分类器(Jeppesen et al., 2019)。然而,特征选择过程往往依赖人工干预,并且是点对点的,缺乏整合上下文和全局信息的能力。深度学习(DL)模型,特别是“基于图像特征的”ML模型,如卷积神经网络(CNN),可以同时整合光谱和空间信息,已被广泛应用于图像分类和目标检测(Cheng et al., 2016; Deng et al., 2018)。CNN架构在云检测任务中表现出色,因为它们可以利用云层与下层地表的空间变化差异。深度金字塔网络(Ozkan et al., 2018)、SegNet(Chai et al., 2019)、U-Net(Jeppesen et al., 2019; Wieland et al., 2019; Wright et al., 2024; H. K. Zhang et al., 2024)和多尺度卷积特征融合(MSCFF)(Z. Li et al., 2019)在生成与手动注释相似的云掩膜方面表现出有效性。CNN模型具有强大的泛化能力,并通过正则化技术减少了过拟合(Zheng et al., 2018)。然而,CNN网络的权重是静态的,无法动态适应输入变化。此外,当前研究指出,CNN模型在捕捉长距离依赖性和全局背景方面存在挑战,因为它们的感受野相对较小,难以整合整个图像中的远距离像素(Luo et al., 2016; Xie et al., 2021)。
Transformer作为一种新一代强大的DL框架,通过其自注意力机制在提取全局图像特征方面越来越受欢迎(Vaswani et al., 2017)。它已被应用于卫星图像中的云检测(Singh et al., 2023)。一些基于Transformer的模型被开发出来以提高云检测性能,例如Vision Transformers(Fan et al., 2024; B. Zhang et al., 2023)和Swin Transformer(Tan et al., 2023),以及结合Transformer和CNN的混合模型(Gong et al., 2023; Zhang et al., 2022)。然而,大多数先前的研究主要是针对单一传感器分别训练模型,限制了它们的泛化能力。最近,Wright et al.(2025)开发了一种深度学习OmniCloudMask方法,用于跨Landsat-8、Sentinel-2和PlanetScope卫星的云层和云阴影检测,该方法采用动态Z-score归一化和混合分辨率训练。然而,它主要关注特定的传感器对,未能充分考虑不同传感器在空间分辨率、光谱特性和轨道配置上的显著差异。
为了解决这些问题,我们的研究建立了一个全面的实验性云检测框架,该框架将Swin Transformer(Liu et al., 2021)作为编码器,统一感知解析网络(UPerNet, Xiao et al., 2018)作为解码器。该框架通过利用全局和区域背景以及多尺度特征进行复杂场景分割,同时适应不同图像数据集的变化,从而提高了云检测性能。更重要的是,我们的STUPmask模型首先在两个代表性高分辨率卫星Landsat 8(30米)和Sentinel-2(10米)上进行了预训练,然后使用独立验证和测试数据集进行评估,这些数据集在训练过程中并未使用。我们进一步扩展了模型,使其能够适应从低地球轨道(LEO)到地球静止轨道(GEO)平台的各种空间分辨率的卫星,包括GaoFen-2 PMS(4米)、Aqua MODIS(1公里)和Himawari-8 AHI(2公里)。通过跨多个地球观测平台的广泛实验,我们提供了一个实用且可复制的跨传感器泛化基准。这种方法为大规模预训练如何支持开发鲁棒的跨传感器云检测模型提供了宝贵的见解。