基于Transformer深度学习模型重建Landsat历史时间序列：在加拿大草原地区的应用与评估

《Canadian Journal of Remote Sensing》：Reconstructing Historical Landsat Time Series Using a Transformer-Based Deep Learning Approach: A Case Study in the Canadian Prairies Region

【字体：大中小】 时间：2026年01月04日 来源：Canadian Journal of Remote Sensing 2.1

编辑推荐：

　　本文系统评估了CFC-mmRNN与Transformer两种深度学习模型在不同数据密度下重建Landsat时间序列的性能。研究表明，Transformer模型在稀疏观测条件下（如每年仅2次观测）仍能保持时间序列结构，显著优于CFC-mmRNN，为高精度遥感时间序列重建提供了稳健解决方案。该研究对提升全球环境变化监测能力具有重要意义。

摘要

Landsat项目凭借其中等空间分辨率影像的长期记录、完善的校准体系及开放数据政策，已成为环境变化监测的关键工具。然而，Landsat时间序列中稀疏且不规则的观测间隔对需要时间一致性数据的应用提出了挑战。本研究评估了两种深度学习模型（CFC-mmRNN和基于Transformer的网络）在不同数据可用性条件下重建Landsat时间序列的性能。通过分析光谱波段、季节和数据密度对精度的影响，评估了它们处理不规则时间间隙的有效性。结果表明，Transformer模型优于CFC-mmRNN。虽然两种模型在高密度情况下达到相似精度，但随着数据密度降低，CFC-mmRNN的性能下降更为明显。相比之下，即使在每年仅约两次观测的极低密度条件下，Transformer模型仍能保持重建时间序列的时间结构。这些发现表明，当有足够观测数据时，CFC-mmRNN对于时间序列应用仍然有效，并且可直接应用于预测任务。而Transformer模型为重建稀疏Landsat时间序列提供了更稳健的解决方案，特别是在数据稀缺条件下。本研究强调了选择适当深度学习方法以增强Landsat时间序列重建的重要性。

1.
引言

Landsat档案因其提供超过50年的高分辨率影像连续采集、完善的反射率校准处理以及免费开放数据政策，成为研究景观变化的重要资源。然而，Landsat数据的主要限制之一是其相对较低的时间分辨率，加上不规则晴空观测的挑战。重建光学卫星影像中的间隙对于改进多时相分析至关重要。对于MODIS（中分辨率成像光谱仪）传感器等近每日采样的低分辨率地球观测数据集，插值方法可以有效地填充缺失数据，生成一致的时间序列。但云层、雾霾、阴影和传感器相关问题等挑战，加上Landsat传感器的重访周期，导致其历史数据中晴空观测频率低且不规则。

多种方法已被用于重建不规则遥感时间序列，包括光谱-时间度量、插值技术、自回归建模和谐波建模。尽管做出了这些努力，但许多方法难以有效管理和建模高度稀疏的Landsat时间序列。近年来，谐波模型因其在处理稀疏和不规则Landsat数据方面的有效性而日益突出。谐波模型通常与CCDC（连续变化检测和分类）方法结合用于Landsat时间序列建模中的变化检测。它们侧重于捕捉时间模式而非完美匹配观测数据，但对少数谐波频率的依赖常常导致对复杂信号的拟合不佳。

近年来，基于深度学习的方法在增强各种遥感应用（包括时间序列建模）方面显示出巨大潜力；然而，在应用这些方法时仍存在研究空白和局限性。尽管深度学习技术在数据建模方面表现出色，但许多方法在处理稀疏时间序列时遇到挑战，特别是对于非均匀采样数据集。具体而言，大多数基于深度学习的序列建模方法（如循环神经网络）不适合不规则时间序列建模。使用深度学习进行不规则时间序列建模的研究仍然有限，当前方法主要解决使用时间序列建模进行土地覆盖分类等任务，而非时间序列重建。

在最近的一项研究中，我们检验了将闭式连续深度神经网络集成到RNN中的有效性（称为CFC-mmRNN），用于重建1985年以来加拿大草原的历史Landsat时间序列。CFC模型具有基于常微分方程的方法的建模优势，同时无需求解器，使其比传统的基于常微分方程的方法快得多。尽管与历史时间序列重建不直接相关，但CFC-mmRNN的一个重要方面是其适用于预测应用。与其他为不规则时间序列建模设计的基线模型相比，CFC-mmRNN表现出卓越的性能和降低的计算复杂度。该研究在不同数据密度下比较了CFC-mmRNN方法与连续变化检测方法。结果表明，在所有光谱波段中，CFC-mmRNN始终优于CCD，提供了更准确和时间上更详细的重建。即使数据相对稀疏，CFC-mmRNN仍能保持比CCD更高的精度并保留时间序列的整体形状。然而，当数据密度降至每年四次观测以下时，CFC-mmRNN的可靠性下降，限制了其实际应用。因此，需要一种能够处理这些稀疏时间序列的方法。

为此，本研究调查了使用基于Transformer的方法重建非常稀疏的历史Landsat时间序列。Transformer网络架构最初为自然语言处理设计，由于能够有效处理不同长度的时间序列并捕捉长期依赖关系，在时间序列建模中日益突出。其核心组件自注意力机制使模型能够动态权衡不同时间步的重要性，增强其识别复杂时间模式的能力。

本研究开发并评估了一个能够处理不规则和稀疏时间序列的基于Transformer的网络，以重建加拿大草原地区样本区域1985年至2023年的历史Landsat时间序列。论文结构如下：第2节详细介绍了研究区域和数据集，第3节概述了Transformer神经网络，描述了其在Landsat时间序列重建中的实现，并介绍了评估方法。第4节展示并讨论了结果，而第5节对论文进行了总结。

2.
研究区域和数据集

研究区域位于加拿大艾伯塔省东南部，属于加拿大草原地区。该区域是北美大平原的一部分，加拿大拥有世界16%的草原。加拿大草原拥有该国89%的草原（包括原生草原和耕作草原）。研究区域的景观主要由草原和农业用地组成，海拔范围在平均海平面以上953至1083米。选择该区域是因为其农业用地的动态性质，受气候波动和收割周期影响而发生季节性变化。此外，草原的时间特征可能为区分原生区域和耕作区域提供有价值的见解，突显了改进时间表征的必要性。

为选择测试区域，首先将研究区域划分为10公里×10公里的网格单元。然后随机选择三个单元作为测试区域。为最小化训练数据和测试数据之间的空间自相关，训练样本从距离测试单元至少2公里的区域中随机选择。每个测试区域的真实彩色波段合成的Landsat图像样本如图3所示。前两个区域的主要土地覆盖类型是农田和草原，而第三个区域主要以森林、灌木丛和草原为特征。

本研究使用了来自Landsat任务的大气校正和正射校正地表反射率影像，特别是TM（Landsat 5）、ETM+（Landsat 7）、OLI（Landsat 8）和OLI-2（Landsat 9）传感器的数据。本研究使用的Landsat任务时间线如图4所示。对于Landsat 7，其时间线中的小白色箭头表示2003年5月31日扫描行校正器失败后的数据收集期。SLC补偿了卫星的前向运动；其故障导致锯齿状数据间隙，尽管ETM+传感器继续捕获每个场景的约78%。虽然Landsat 7的科学成像于2024年1月19日暂停之前一直运行，但本研究仅使用了截至2017年8月获取的数据。此后，由于燃料有限导致的轨道漂移使得采集时间提前，降低了其数据定量分析的可靠性。

所使用的Landsat数据集通过Google Earth Engine平台获取，时间跨度为39年（1985-2023年）。分析重点放在可见光和近红外以及短波红外光谱波段，因为这些波段是所有使用传感器共有的，原生空间分辨率为30米。热红外波段虽然存在于所有传感器上，但由于其较粗的空间分辨率和较高的建模复杂性而被排除在外。

除了Landsat时间序列，还使用了Aqua和Terra卫星上的MODIS传感器样本作为辅助数据（2004年至2023年），以生成用于训练深度学习方法的目标时间序列。本研究使用了来自Aqua（MYD09A1.061）和Terra（MOD09A1.061）的MODIS地表反射率8天全球500米产品。这些产品提供8天时间分辨率和500米空间分辨率的地表反射率数据，并从Google Earth Engine获取。使用的MODIS波段包括蓝、绿、红、近红外、短波红外1和短波红外2光谱区域。

3.
方法论

3.1. 用于时间序列建模的Transformer

在本研究中，采用基于Transformer的模型进行Landsat时间序列重建，将该任务视为序列到序列问题，其中n和m分别代表输入和输出时间序列长度。图5展示了基于Transformer的时间序列重建框架的整体架构。该架构由几个关键组件组成，包括掩码层、输入和位置嵌入层、三个Transformer编码器块和一个输出层。在此架构中，仅使用编码器组件，而不是完整的编码器-解码器设置，遵循语言建模中的先前研究。

具体而言，每个时间步的反射率值通过掩码层处理，该层通过生成一个确保模型专注于可用数据的掩码来处理缺失值。输入嵌入层将每个时间步的预测变量编码为固定长度的特征向量。正弦位置编码被添加到输入中以捕捉观测的时间顺序。与简单的年积日不同，这种编码生成依赖于位置的正弦和余弦值，表示时间序列的顺序结构。Transformer编码器由多层自注意力和前馈网络组成。自注意力机制动态权衡序列中不同时间步的重要性，提高模型识别和保存复杂时间模式的能力。批归一化和层归一化分别应用于嵌入层和多头自注意力层之后，以稳定学习并改善收敛性。还包括一个正则化项以防止过拟合。最终的输出密集层重建时间序列，为每个时间步输出单个预测。最终输出使用Sigmoid激活函数，确保模型能够预测所需范围内的值。这种方法有效地捕捉了输入时间序列的时间结构，并增强了缺失数据插补，使其适用于重建不完整或不规则采样的Landsat时间序列数据。

3.2. 使用Transformer模型重建Landsat时间序列

本研究中使用基于Transformer的方法重建Landsat时间序列遵循一个多步骤工作流程。首先，从历史Landsat影像中去除受云和阴影污染的观测值。随后，使用高斯过程回归从MODIS和Landsat观测值构建密集的目标时间序列以生成训练样本。在训练基于Transformer的模型后，使用该模型重建整个研究区域的缺失Landsat观测值。在不同光谱波段、季节和密度水平下评估并比较了该模型在时间序列重建方面的性能与CFC-mmRNN模型的性能。以下各节详细解释了每个步骤。

3.2.1. 污染观测过滤

对于Landsat影像预处理，本研究的一个关键步骤是过滤掉云和云阴影。为此，使用基于对象的Fmask算法对像素进行掩膜。虽然Fmask提供了相对准确的云和阴影掩膜，但它有一定的局限性。具体来说，它可能难以区分云和其他瞬态现象（如密集气溶胶、烟雾或洪水），这些有时可能被误分类为土地覆盖变化。然而，由于Landsat时间序列通常包含一定水平的异常值和噪声，有效的时间序列重建方法应设计为在处理这些不确定性的同时保留有意义的模式。

3.2.2. 训练样本

准确的训练样本对于开发深度学习模型至关重要。在本研究中，从研究区域的训练部分随机选择了总共5000个来自不同土地覆盖类型的样本时间序列。虽然这个样本量对于训练深度神经网络（通常需要大量多样化数据集）来说相对较小，但开发一个在有限数据下表现良好的模型是有价值的，因为收集高质量训练样本通常耗时且成本高。如前所述，研究区域的主要土地覆盖是草原和农田。因此，大约85%的样本是从这两种土地覆盖中随机选择的。从不同土地覆盖选择的训练样本数量列于表1。用于取样的土地覆盖图来自2020年北美土地覆盖30米数据集，可在Google Earth Engine平台上获取。

提取的样本表现出稀疏且不规则的时间分布，但为了训练Transformer，需要密集的目标时间序列。为此，结合Landsat和MODIS观测值，并使用GPR进行建模，GPR已被证明是用于地球观测应用和时间序列建模的具有竞争力的机器学习回归算法。采用GPR生成高质量、连续且均匀间隔的目标时间序列，适用于训练。包含MODIS是因为它提供每日覆盖，从而获得晴空观测的最佳机会。MODIS为红和近红外波段提供250米分辨率，为蓝、绿、短波红外1和短波红外2波段提供500米分辨率。为保持一致性，使用500米MODIS地表反射率产品，并将Landsat数据重采样至500米以匹配MODIS。以下部分解释GPR方法。

GPR是一种用于回归的非参数贝叶斯方法，与传统参数方法的不同之处在于它不假设输入和输出变量之间关系具有固定函数形式。相反，它通过贝叶斯推断定义了可能函数的分布，并根据可用数据调整其复杂性。这种灵活性使GPR能够模拟各种模式和依赖关系，使其特别适用于插值不规则时间序列，同时保留潜在趋势和不确定性。通过利用无限维函数空间，GPR可以动态调整以适应数据中不同程度的平滑度，确保对缺失观测的稳健重建，并提高深度学习模型输入的质量。

GPR的主要组成部分之一是核（或协方差函数），它定义了数据点之间的相似性，并关键地决定了建模函数的平滑度、周期性和整体形状。在我们的案例中，核配置包括一个周期核、一个粗趋势RBF（径向基函数）核、一个细尺度RBF核和一个噪声核。周期核用于模拟年度周期，周期长度为365，核尺度为120以控制季节性变化的平滑度。粗趋势RBF核（尺度为5×365）旨在捕捉长期时间趋势，而细尺度RBF核（尺度=30）模拟年内波动。最后，噪声核解释了时间序列中的随机变化和噪声。核组件及其相应尺度是通过实验确定的，以最好地表示研究区域的时间特征。图6显示了使用GPR方法以及Landsat和MODIS观测值为近红外和短波红外2波段生成的农田像素示例时间序列。

虽然GPR模型在生成目标时间序列方面表现良好，但它需要大量数据点才能实现准确的预测。此外，根据时间序列的形状选择适当的核和调整参数可能具有挑战性，特别是对于复杂的土地覆盖类型。而且，GPR的计算成本很高，并且随着样本数量的立方而缩放。所有这些限制使得GPR不适合在具有稀疏观测的广阔研究区域内进行时间序列重建，而它在本研究中使用Landsat和MODIS生成准确且密集的目标时间序列方面仍然是一个高度有效的选择。

为了训练基于Transformer的方法，稀疏的Landsat观测值被用作输入，而由GPR以7天间隔生成的密集时间序列用作目标数据。对于训练CFC-mmRNN方法，使用稀疏Landsat观测值及其相应的GPR目标时间序列创建时间序列块。每个块包含12个最接近的晴空Landsat观测值作为输入。这被训练用于预测一到五个后续GPR目标样本，作为一种随机数据增强方法。为了提高模型捕捉时间依赖性的能力，训练数据以向前和向后两个方向生成：向前方法使用前12个晴空观测值预测每个目标样本，而向后方法依赖于后12个晴空观测值。关于CFC-mmRNN方法论的更详细解释，包括向前和向后训练样本的生成、训练过程和模型架构，读者可参考我们之前的研究。

需要注意的是，与之前研究（目标样本从晴空Landsat观测值中提取）不同，本研究从GPR生成的密集时间序列中选择它们，以与基于Transformer的训练过程保持一致。选择12作为训练观测值数量以及最多5个时间步的目标范围是通过参数调整期间的试验和错误确定的。在两种方法中，85%的数据集用于训练，而剩余的15%用于验证。

为了评估基于Transformer的方法的准确性并将其与CFC-mmRNN进行比较，从每个测试区域保留了15%的图像，这些图像每季节至少包含60%的晴空观测值。实施此标准是为了保持高质量的测试样本，因为具有显著云或阴影覆盖的图像通常受到诸如雾霾和云邻近效应等伪影的影响，不适合用于评估目的。因此，分别对第一、第二和第三测试区域使用了总共141、100和78张测试图像，它们的季节分布呈现在表2中。关于不同测试区域之间清晰Landsat图像数量的差异，虽然云覆盖模式的变化起作用，但主要原因是测试区域位于不同的卫星路径下。这些不同的采集路径导致成像时间、场景重叠和覆盖频率的差异，从而产生不同数量的具有超过60%清晰像素的场景。

3.2.3. Transformer实现

本研究中使用的Transformer模型由三层（Transformer编码块）组成，每层包含四个多头注意力机制和128个单元。作为Transformer编码器块一部分的前馈网络由512个单元组成，并使用ReLU激活函数。最终的密集层采用Sigmoid激活函数。该架构总共包含1,887,237个可训练参数。模型使用自适应矩估计优化器进行优化。为了降低过拟合风险，在网络层之间应用了0.1的丢弃率，在训练期间随机停用神经元。输入批次大小设置为10，模型训练了150个周期，总共进行了979,200次迭代。所有训练和推理任务均使用Python 3.11和TensorFlow 2.17在NVIDIA A30 GPU上执行。

3.2.4. 评估

为了评估模型的准确性，使用保留图像计算均方根误差。对整个时间序列以及四个不同的季节（春季：3-5月，夏季：6-8月，秋季：9-11月，冬季：12-2月）的结果进行了分析。为了进行视觉评估，还生成了预测图像、差异图像（显示参考图像和预测图像之间的偏差）和误差直方图。

为了检查与云和云阴影相关的数据稀疏性对时间序列重建的影响，我们在时间序列重建之前随机移除了10%到90%的Landsat图像（时间步）。这个过程产生了十种不同的情景，包括原始观测密度和九个逐渐稀疏的水平。还计算了每年平均晴空观测值数量，帮助我们确定每种方法产生可靠结果所需的最小样本数。

4.
结果与讨论

4.1. Transformer和CFC-mmRNN在Landsat图像重建中的比较

重建的Landsat时间序列结果表明，在估计所有三个测试区域的保留测试图像观测值方面，Transformer模型优于CFC-mmRNN方法。表3和图7展示了使用RMSE评估的两种方法的重建性能。此外，表3突出了Transformer相对于CFC-mmRNN实现的改进程度。结果表明，在所有六个光谱波段和所有测试区域中，Transformer始终产生更高的精度，对于第一、第二和第三研究区域，改进范围分别为12%至21%、16%至26%和11%至36%。不同波段重建精度的比较显示，模型在测试区域之间的性能是一致的，短波红外波段的精度较高，而RGB和近红外波段的精度较低。这种差异主要是由于短波红外波段的反射值范围低于RGB和近红外波段。

图8展示了一个样本草原像素在六年期间（1992-1997）跨多个光谱波段的时间序列重建。在该图中，训练和测试观测值分别由蓝色圆圈和红色正方形表示，而预测值则描绘为绿色三角形。如图8所示，对于时间序列的大部分，Transformer的预测与CFC-mmRNN的预测紧密对齐。然而，在数据密度特别低的时期（例如1995年末和1996年初），Transformer表现出卓越的性能，而CFC-mmRNN难以准确重建缺失值。

我们对CfC-mmRNN和Transformer在所有三个测试区域重建Landsat图像的性能进行了详细评估，发现它们之间结果一致。因此，更详细地展示了第二个测试区域的结果。图9说明了平均误差图和直方图，描述了使用Transformer和CFC-mmRNN方法为第二个测试区域生成的141张测试图像的参考值和重建值之间的绝对差异。结果表明，Transformer在所有六个光谱波段始终实现较低的重建误差，这反映在空间误差分布和直方图模式中。一个值得注意的观察结果是，农田区域的误差往往高于草原区域，特别是在近红外、短波红外1和短波红外2波段。这种区别在这些波段的误差图中视觉上很明显，农田区域主要显示为具有较高误差值的矩形图案。误差直方图进一步强化了这一趋势，显示在CFC-mmRNN案例的短波红外2和Transformer案例的短波红外1和短波红外2分布中存在两个不同的峰值，每个峰值对应特定的土地覆盖类型。造成这种差异的主要因素是农田的时间序列比草原具有更大的复杂性和可变性。农田表现出更高的反射波动和更复杂的时间动态，使其重建更具挑战性，导致更大的误差。

图10展示了不同季节和光谱波段测试图像的平均重建精度。Transformer模型在不同季节和波段上的表现均优于CFC-mmRNN方法。Transformer在春季和秋季显著更高的精度突显了其模拟季节转换（从冬季到夏季以及从夏季到冬季）的卓越能力。相比之下，尽管Transformer在夏季和冬季月份也优于CFC-mmRNN，但植被反射值相对稳定且夏季观测密度高，加上冬季主要被雪覆盖，导致这两种方法在重建这些季节的Landsat时间序列时性能相当。误差范围分析进一步显示，最高误差发生在冬季，其次是春季和秋季，两种方法在夏季表现最佳。这些精度的季节变化源于两个主要因素。关于可见光和近红外波段，第一个也是最重要的因素是雪覆盖的高反射率和显著反射值方差，这在冬季主导景观，导致冬季以及春季和秋季过渡时期的误差幅度较高。第二个因素，与春季和秋季更相关，是在这些季节时间序列模式的复杂性增加，因为农田和草原的反射值比夏季和冬季经历更快速的变化。

图11提供了使用CFC-mmRNN和Transformer模型在不同季节进行测试图像重建的示例，以及近红外波段预测的相应误差图。结果表明，两种模型实现了几乎相同的重建性能，Transformer表现出轻微优势。误差图显示，当雪不是

热点排行

新闻专题