FDPFNet:面向光学-SAR多标签遥感场景分类的频域渐进融合网络

《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》:FDPFNet: A Frequency-Domain Progressive Fusion Network for Optical-SAR Multi-Label Remote Sensing Scene Classification

【字体: 时间:2025年12月30日 来源:IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 5.4

编辑推荐:

  本文针对光学与SAR遥感图像融合中存在的模态异构性和SAR固有斑点噪声等挑战,提出了一种频域渐进融合网络FDPFNet。该研究通过设计低频卷积模块、双频分解模块和自适应特征融合模块,构建了混合CNN-Transformer架构,在BigEarthNet-MM和SEN12-MLRS数据集上的实验表明其显著提升了多标签场景分类性能,为可靠的土地利用土地覆盖产品生产提供了有效解决方案。

  
当我们仰望星空,卫星正从太空凝视着地球,源源不断地传回海量的遥感影像。这些影像已成为我们监测地球环境、规划城市发展和管理自然资源不可或缺的利器。其中,光学影像色彩斑斓、细节丰富,如同我们亲眼所见;而合成孔径雷达(SAR)影像则具备独特的“透视”能力,不受云雾和昼夜限制,能够揭示地表的结构信息。将这两种各具优势的数据融合起来,理论上应该能让我们更全面、更精确地理解地表场景。然而,理想很丰满,现实却很骨感。由于成像原理的天壤之别,光学和SAR影像在视觉表现上存在巨大的异构性:光学影像依赖太阳光反射,而SAR影像则依赖于雷达波主动发射和接收。更棘手的是,SAR影像中无法避免的斑点噪声就像电视雪花一样,严重干扰着对图像细节的解读。传统的融合方法多在空间域内进行,难以有效剥离噪声并充分利用两种影像之间真正的互补信息,尤其是在面对一个场景中包含多种地物类型(如同时存在城市、植被和水体)的复杂多标签分类任务时,挑战更为严峻。
为了解决上述核心挑战,一项发表在《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》上的研究提出了一个名为FDPFNet的创新性解决方案。该网络的核心思想是跳出传统空间域的局限,将融合的战场扩展至频域,通过一种渐进式的策略,巧妙地结合空间与频域信息,旨在抑制SAR影像特定噪声的同时,实现光学与SAR特征的有效融合。
为了开展这项研究,研究人员主要采用了以下几种关键技术方法:首先,构建了基于混合CNN-Transformer的FDPFNet网络主干架构。其次,利用小波变换(Wavelet Transform)进行频域分析和特征分解。第三,设计了包含低频卷积(LFConv)、双频分解(TFD)和自适应特征融合(AFF)三个核心模块的渐进融合流程。实验数据来源于公开的多模态遥感数据集BigEarthNet-MM和SEN12-MLRS,这些数据集提供了精确配准的Sentinel-2光学和Sentinel-1 SAR图像对及多标签标注。模型优化采用Adam优化器,损失函数为加权二元交叉熵损失,并使用了随机旋转和翻转等数据增强技术来提升模型泛化能力。性能评估则综合采用了精确率(Precision)、召回率(Recall)、F1分数(F1-Score)和微平均F1分数(Micro-F1)等多指标评价体系。
研究结果
Ablation Study
消融实验系统地验证了各个模块的贡献。移除LFConv模块会导致F1-Score下降2.67%,Micro-F1下降2.13%,证明了利用小波变换增强低频信息和抑制SAR高频噪声的有效性。对双频分解模块的测试表明,同时移除高、低频分解分支会使性能显著下降(Micro-F1从90.49%降至88.15%),其中低频分支(LFD,基于Transformer)对性能的提升(贡献约1.39%的Micro-F1)比高频分支(HFD,基于CNN倒残差结构,贡献约0.68%)更为关键,说明提取跨模态共享的低频语义是融合的核心。在自适应特征融合模块中,同时使用自注意力(SA)和交叉注意力(CA)的完整AFF模块比仅使用CA或SA的模型在Micro-F1上分别高出1.41%和0.88%,表明其能有效平衡模态内特征一致性和模态间互补性。
Comparisons of other models
在BigEarthNet-MM数据集上,FDPFNet的整体性能优于其他先进方法。其平均F1-Score达到86.59%,Micro-F1达到90.49%,均领先于对比模型(如SCTFusionViT, OOD, MCANet, SFFNet, PDANet)。特别是在类别不平衡和特征复杂的场景中表现出色,例如在阔叶林、针叶林、混合林等森林类别,以及耕地、牧场等农业类别上,F1-Score提升显著(如在阔叶林类别上比PDANet高2.69%)。在SEN12-MLRS数据集上,FDPFNet同样取得了最佳性能(平均F1-Score 86.05%, Micro-F1 91.65%),尤其在样本稀少的“道路”和“裸地”类别上,相比其他模型有大幅提升(道路类别F1-Score比SCTFusionViT高出45.52%),证明了其处理类别不平衡问题的能力。
Visualization
可视化分析为模型的有效性提供了直观证据。热力图显示,FDPFNet的激活区域更集中于目标地物内部,边界清晰。混淆矩阵表明模型对多数类别区分度良好,仅在特征相似的类别(如道路与裸地)间存在少量混淆。通过t-SNE对网络不同层级特征进行降维可视化发现:第一级(LFConv后)特征重叠严重,类别边界模糊;第二级(Transformer后)特征聚类性增强,类别分离度提高;第三级(TFD频域分解融合后)特征呈现出最高的类内紧凑性和类间分离度,特别是之前容易混淆的植被类别(如牧场、自然草地、过渡灌丛)和森林类别(阔叶林与混合林)被清晰区分,证明了频域分解在增强特征判别力方面的关键作用。
Impact of SAR Data and Clouds
额外实验探讨了SAR数据的作用和对云层干扰的鲁棒性。在仅使用SAR数据时,分类精度(F1-Score 79.42%)低于仅使用光学数据(84.32%)和两者融合(86.59%),但融合带来了显著提升。在模拟云层覆盖(云量>30%)的场景下,仅使用受云影响的光学图像时,性能急剧下降(F1-Score 68.92%),而仅使用SAR图像仍能保持相对稳定(F1-Score 77.38%)。当融合有云光学图像和SAR图像时,模型性能(F1-Score 83.31%)远优于单模态输入,并接近在无云完整数据集上的表现,凸显了光学-SAR融合在应对光学数据质量退化时的巨大价值。
研究结论与意义
本研究提出的FDPFNet网络成功地将频域分析引入到光学-SAR多标签遥感场景分类任务中。通过低频卷积模块增强跨模态共享的低频结构信息并抑制SAR噪声,通过双频分解模块显式分离和高低频特征以针对性融合,再通过自适应特征融合模块动态平衡多层级特征,该网络有效地克服了模态异构性和斑点噪声带来的挑战。
这项研究的重要意义在于:其一,它证实了在频域进行特征分解和融合对于处理异构遥感模态的优越性,为后续研究提供了新思路。其二,所提出的混合CNN-Transformer架构与渐进式融合策略,实现了局部与全局特征、空间与频域信息的有效协同,显著提升了多标签场景分类的准确性,特别是在复杂地物和样本不平衡场景下表现稳健。其三,模型对云层覆盖等实际应用中常见问题的鲁棒性,增强了其在业务化生产可靠的土地利用土地覆盖(LULC)产品方面的应用潜力。未来,结合视觉-语言学习等新技术,进一步融合频域、空间域和文本语义信息,有望建立起更强大的协同建模机制,推动遥感场景理解向更高层次发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号