AnytimeFormer:通过融合不规则且异步的SAR(合成孔径雷达)和光学时间序列数据,重建任意给定时间点的反射率

《Remote Sensing of Environment》:AnytimeFormer: Fusing irregular and asynchronous SAR-optical time series to reconstruct reflectance at any given time

【字体: 时间:2025年11月09日 来源:Remote Sensing of Environment 11.4

编辑推荐:

  AnytimeFormer提出基于Transformer的模型,通过时间对齐注意力模块消除多模态数据时间不一致问题,利用低秩融合模块高效融合光学与SAR数据,并设计时间感知解码器实现任意时间点预测,实验表明其RMSE达0.03,R2为0.95,优于现有方法且训练效率提升10倍。

  卫星遥感技术在地球表面监测中扮演着至关重要的角色,其图像被广泛应用于土地覆盖分类、变化检测、农作物识别以及生物物理参数的提取等领域。随着对更高空间和时间分辨率的需求不断增长,卫星传感器技术也取得了显著进步,提升了卫星的重访频率和空间分辨率。例如,Sentinel-2任务提供的地表反射数据具有平均5天的重访周期和10-60米的空间分辨率。然而,云干扰不可避免地影响图像质量,并造成数据缺失,这在多个研究中都有提及。例如,MODIS观测中平均有约55%的土地表面被云覆盖,而在北美大陆的Landsat 7和8观测中,这一比例约为40%。这种数据缺失对获取可靠和连续的时间信息构成了重大挑战,尤其是在农业、城市、沙漠、草原、湿地和热带森林等多样化的地表环境中,强调了重建无缺失卫星图像时间序列(SITS)的迫切需求。

在过去的几十年里,各种SITS重建技术被开发出来,主要分为单传感器和多传感器方法,取决于其数据利用策略。单传感器方法通常采用两种策略:拟合和填充。拟合策略通过预定义的数学函数对反射时间序列进行建模,假设时间序列符合这些函数,例如傅里叶分析(如时间序列谐波分析,HANTS),逻辑模型,Savitzky–Golay滤波器,以及线性和非线性谐波模型。填充策略则利用时间序列中空间和时间上相似且无云覆盖的像素进行缺失值填充。代表性方法是邻域相似像素插值器(NSPI)。此外,Yan和Roy(2020)提出了一种混合方法,首先使用相似像素填充缺失值,然后用线性谐波模型对清晰像素进行拟合,从而生成无缺失的Landsat SITS。

近年来,一些基于深度学习的方法也取得了显著进展,它们在SITS重建中表现出相对较高的性能。这些方法包括3D卷积神经网络(3DCNN)、带有时间注意力机制的UNet(U-TILISE)、生成对抗网络(GAN)以及扩散模型。无论采用何种策略和模型,单传感器方法仍然高度依赖于清晰观测数据的数量和时空分布。当在数据缺失率高的场景中,清晰观测数据有限时,其性能会显著下降。

为了缓解上述限制,多传感器方法被广泛探索,以增加来自其他传感器的清晰观测数据。其中,时空融合技术引起了广泛关注,通过将高空间分辨率但低时间频率的光学数据(如Landsat图像)与高时间分辨率但空间细节较低的遥感数据(如MODIS图像)进行融合,从而生成高时空分辨率的无缺失SITS。代表性方法包括STARFM、ESTARFM、SPSTFM、FSDAF、Fit-FC、RASDF、OBSUM以及基于深度学习的方法,如基于CNN、GAN、Transformer和扩散模型的方法。这些方法大多依赖于从粗到细的图像对输入,并在预测日期生成一张高空间分辨率的图像。此外,一些研究进一步利用时间信息,通过建模粗分辨率和细分辨率图像之间的关系来提高重建效果。近年来,序列深度学习方法通过建模时间序列数据中的时间依赖性,进一步提升了重建性能,例如使用Landsat和Sentinel-2时间序列作为输入,然后通过双向长短期记忆(Bi-LSTM)或Transformer模型进行无缺失SITS重建。然而,这些方法仍然依赖于多传感器获取的光学数据,在云层厚重的地区,各种光学传感器可能无法捕捉同步且清晰的观测数据,从而影响方法的有效性。

合成孔径雷达(SAR)数据可以穿透云层,因此将SAR和光学数据结合起来重建光学SITS可以有效缓解仅依赖光学观测的局限性。鉴于SAR和光学传感器不同的成像机制,这种结合被广泛认为是一种多模态方法,代表了多传感器方法中的重要进展。然而,由于SAR和光学数据之间的成像机制差异,两者之间的关系复杂且不明确。此外,SAR的主动相干成像系统不稳定,以及斑点干扰产生的噪声,使得将SAR用于重建光学SITS存在挑战。因此,越来越多的研究采用深度学习模型,以利用其强大的特征提取能力和建模复杂关系的能力。早期的多模态研究采用了单图像转换或序列到序列转换的方法,直接将SAR映射到光学图像。在这些转换方法中,SAR图像或时间序列作为输入,而对应的光学图像或时间序列作为输出,从而建立了从SAR到光学数据的非线性映射,使SAR图像能够被转换为光学图像。然而,直接的SAR到光学转换并未将光学图像作为模型输入,因此忽略了光学数据中固有的光谱和时间信息,这在复杂景观中的应用存在显著挑战。近年来,多模态方法通过将光学和SAR观测数据作为输入,重建无缺失的光学SITS。例如,Zhao等人(2023)将光学和SAR时间序列编码到共享特征空间中,通过注意力机制进行交互,并利用对抗训练进行增强。Chen等人(2024)将SAR和归一化植被指数(NDVI)序列联合输入到Bi-LSTM网络中,以重建无缺失的NDVI时间序列。Liu等人(2025)进一步将SAR趋势分解信息与光学时间序列作为Bi-LSTM输入,以实现无缺失的反射时间序列重建。Shu等人(2025)则利用光学时间序列中的无云像素与时间匹配的SAR时间序列作为条件输入,引导扩散Transformer进行无缺失SITS的重建。这些多模态方法有效地利用了部分清晰光学观测数据中的时间自相关性以及SAR数据的互补信息,为稳健的SITS重建提供了有前景的方法。

尽管多模态深度学习模型在利用多源互补信息方面表现出良好的性能,但仍面临三个挑战。首先,现有的深度学习模型主要采用序列到序列架构,通常需要输入均匀采样的数据。然而,光学时间序列由于持续的云覆盖,往往具有不规则的观测间隔。一些研究通过组合多时相图像来标准化光学时间序列,使其具有一致的间隔(如图1(a)所示)。此外,多模态传感器(如Sentinel-1和Sentinel-2)之间的重访周期差异导致观测时间戳不一致。常见的做法是将SAR数据插值以对齐光学观测时间戳,或匹配SAR数据与最近的光学观测数据(如图1(a)所示)。这些额外的预处理步骤(组合、插值和最近日期匹配)会破坏和扭曲原始SAR观测数据,同时增加工作流程的复杂性。其次,大多数模型并未明确考虑观测值与对应时间戳之间的关系。换句话说,模型应该不仅学习从输入时间序列到无缺失时间序列的映射,还应学习观测时间戳与光学观测值之间的潜在函数关系。缺乏这种建模会限制输出的灵活性,尤其是在生成任意或用户指定时间戳预测时。第三,一些多模态模型简单地将不同模态的特征连接起来作为额外的输入通道(如图1(a)所示),忽视了在模型中间特征层面进行更深层次的跨模态交互和信息整合的潜力。此外,多模态方法不可避免地增加了计算需求,突显了需要轻量且有效的机制以提高多模态交互和融合效率。

为了解决上述限制,我们提出AnytimeFormer,一种新型的多模态SITS重建方法,具有三个关键创新(如图1(b)所示)。首先,AnytimeFormer可以处理来自Sentinel-1和Sentinel-2的异步和不规则采样的多模态时间序列作为输入,其中光学时间序列包含缺失值,并输出完整的地表反射时间序列数据。其次,它在轻量架构中实现全面的多模态特征交互和融合,提高训练和推理效率,适用于实时和本地化应用,从而避免了预训练后迁移学习可能带来的性能下降问题。第三,它将观测时间戳作为额外的特征输入,并在输出阶段通过查询机制引入时间戳提示,以指导任意时间点的反射重建,从而显式建模时间戳与光学值之间的潜在函数关系。为了评估AnytimeFormer的性能和效率,我们在八个全球研究站点(其中两个研究站点在补充材料中提供)上进行了测试,比较其与已有的基准方法或产品的结果。此外,针对关键模块的消融实验和参数敏感性分析进一步验证了其设计的有效性。

为了进一步说明AnytimeFormer的优势,我们评估了其在三个以农田为主的站点(德国、加州和河北)上的性能,这些站点在40%、60%和80%的数据缺失率下进行测试。在平均绝对误差(MAE)和均方根误差(RMSE)方面,AnytimeFormer在所有站点和缺失观测场景中都优于其他方法。在决定系数(R2)和结构相似性指数(SSIM)方面,AnytimeFormer在所有站点和数据缺失率下都达到了接近1的值,展示了其在时间序列重建中的优越能力。此外,AnytimeFormer在重建用户指定时间段时表现出高度的灵活性,这在与Planet Fusion产品进行比较时尤为明显。Planet Fusion产品与AnytimeFormer在时间趋势上表现出高度的一致性,进一步验证了AnytimeFormer在用户指定时间段重建中的灵活性。

在多模态方法中,AnytimeFormer通过引入时间对齐注意力模块,有效解决了多模态时间序列数据不一致的问题。传统的SITS重建方法通常需要额外的预处理步骤,如组合多时相图像以生成统一的光学时间序列,或插值SAR数据以对齐光学观测时间戳。这些步骤虽然能够提高时间序列的一致性,但会引入额外的误差,降低原始数据的完整性。AnytimeFormer通过直接利用输入的观测时间戳,动态对齐不同模态的时间序列,从而避免了这些预处理步骤,提高了数据的准确性和完整性。此外,AnytimeFormer通过低秩融合模块,实现了多模态特征的高效融合,同时保持了模型的轻量化特性,使得训练和推理过程更加高效。低秩融合模块能够有效捕捉多模态数据之间的互补信息,而不会增加过多的计算负担,这在处理大规模遥感数据时尤为重要。

在时间感知解码器方面,AnytimeFormer能够根据用户指定的时间点进行反射数据的重建,而不仅仅是基于预定义的时间间隔。传统的SITS重建方法通常依赖于固定的时间间隔,如8天间隔,这在某些应用场景中可能不够灵活。AnytimeFormer通过时间感知解码器,能够根据用户的需求,在任意时间点生成无缺失的反射数据,这大大提高了模型的适用性。此外,时间感知解码器能够捕捉时间戳与反射值之间的潜在函数关系,使得模型能够更准确地重建时间序列数据,特别是在存在大量缺失值的情况下。

在实际应用中,AnytimeFormer展示了其在不同场景下的强大性能。通过在八个全球研究站点上的测试,AnytimeFormer在不同数据缺失率和时间模式复杂度的情况下,均优于现有的基准方法,如HANTS、U-TILISE、STORI和RESTORE-DiT等。在效率方面,与STORI相比,AnytimeFormer的训练时间减少了十倍,这在需要实时处理和推理的应用中尤为重要。此外,AnytimeFormer在重建用户指定时间段时表现出高度的灵活性,与Planet Fusion产品在时间趋势上高度一致,进一步验证了其在不同场景下的适用性。

总之,AnytimeFormer作为一种新型的多模态SITS重建方法,具有显著的优势。它通过时间对齐注意力模块、低秩融合模块和时间感知解码器,解决了现有方法在处理异步和不规则时间序列、建模时间戳与反射值之间的关系以及提高多模态交互和融合效率方面的不足。AnytimeFormer不仅在不同数据缺失率和时间模式复杂度的情况下表现出优越的性能,还在效率方面显著优于现有方法。其灵活性和准确性使其成为无缺失光学SITS重建的有前景解决方案。此外,AnytimeFormer的轻量化架构和高效的训练推理过程,使其适用于实时和本地化应用,从而提升了其在实际应用中的实用性。通过在不同地表环境中的测试,AnytimeFormer展示了其在多种应用场景中的广泛适用性,包括农业、城市、沙漠、草原、湿地和热带森林等。这些测试结果表明,AnytimeFormer不仅能够有效处理数据缺失问题,还能保持较高的重建精度和效率,为遥感数据的处理和应用提供了新的思路和方法。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号