基于频域增强技术的谱空融合变换器在遥感图像语义分割中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Information Fusion》：Frequency Domain-Enhanced Spectral-Spatial Fusion Transformer for Semantic Segmentation of Remote Sensing Images

【字体：大中小】 时间：2026年02月20日 来源：Information Fusion 15.5

编辑推荐：

　　遥感语义分割中，针对多分辨率布局、精细结构边界和异质纹理分布的挑战，提出FSSFFormer框架。通过固定2D离散小波变换（DWT）将输入分解为低频和高速子带，设计Spectral Enhancement Attention（SEA）选择性增强频带特征，并构建Spectral-Spatial Context Attention（SSCA）模块强化跨频带上下文建模。经逆DWT（iDWT）重构后，在ISPRS Vaihingen、Potsdam及LoveDA数据集上验证，显著提升边界精度（BF-score）和模型泛化能力。

中国南京河海大学计算机科学与软件工程学院，211100

摘要

遥感图像（RSIs）的语义分割面临着诸多挑战，这些挑战源于粗略的空间布局、精细的结构边界以及在不同频率成分上分布不均的异质纹理的共存。为了更好地表征这些互补特性，我们提出了FSSFFormer，这是一种基于频域的增强型变换器，它利用多分辨率小波分解来丰富表示学习。首先应用固定的2D离散小波变换（DWT）将RSIs分解为低频和高频子带，使模型能够在保留细节的同时明确地保留全局空间结构。在这些频率分解特征的基础上，我们采用了两个轻量级模块：一个是光谱增强注意力（SEA）模块，用于选择性地强调信息丰富的子带响应；另一个是光谱-空间上下文注意力（SSCA）模块，用于改善分解特征谱中的上下文建模。然后通过逆DWT在空间域中重建这些精炼的特征，以实现密集预测。在三个公开基准测试集ISPRS Vaihingen、ISPRS Potsdam和LoveDA上的广泛实验表明，FSSFFormer表现出了一致性的强大性能，其在边界保真度方面（通过BF-score衡量）取得了显著提升。消融研究进一步证明了子带分解和这两个注意力模块在增强结构细节和语义一致性方面的互补作用。

引言

遥感图像（RSIs）的语义分割在地理空间应用中发挥着重要作用，如土地利用监测、城市规划、环境管理和灾害响应[1]。随着高分辨率卫星和航空图像的日益普及，RSIs现在包含了丰富的光谱和空间信息，为大规模场景理解提供了新的机会。

尽管深度学习取得了进展，但由于一些特定领域的问题，RSIs的语义分割仍然具有挑战性。首先，许多地理空间对象（如狭窄的道路或屋顶结构）的细粒度特性导致类内变异性高且类间可分性低。其次，RSIs通常具有复杂的背景、微妙的光谱变化以及在不同空间尺度上分布不均的重复纹理。第三，传统模型主要在图像域中运行，其中空间和光谱特征相互交织，使得难以分别建模全局语义布局和高频结构细节[2]、[3]。

最近的基于深度学习的模型，特别是卷积神经网络（CNNs）[4]，在语义分割方面展现了巨大潜力。例如U-Net [5]和DeepLab V3+ [6]等架构能够有效提取多级空间特征，但它们固有的局部感受野限制了它们捕捉长距离上下文依赖性和微妙光谱差异的能力。基于变换器的模型[7]、[8]、[9]通过实现全局自注意力来缓解这一问题，但它们产生的表示往往以低频成分为主，而忽略了高频线索，而这些高频线索对于勾勒RSIs中常见的精细结构、对象边缘和小尺度模式至关重要[10]、[11]。此外，许多现有的光谱-空间融合策略依赖于浅层特征交互（例如简单的串联或通道注意力），这些方法没有明确考虑空间结构和光谱变化在不同频率带上的分布。因此，诸如边缘、轮廓和精细纹理等有价值的高频信息往往没有得到充分利用。

对于RSIs而言，频域表示，特别是基于小波的分解，提供了一种将图像分离成多分辨率子带的原理性机制，这些子带能够捕捉互补的语义和结构线索。低频成分通常编码大尺度布局，而高频子带则保留边界和精细纹理。这些特性使得小波变换自然适合于具有多样化对象规模和复杂结构模式的遥感场景。然而，大多数先前的工作要么根本不使用频率分解，要么仅有限地利用它，未能将频率分离的特征完全整合到光谱-空间建模流程中[12]。

为了解决这些限制，我们提出了FSSFFormer，这是一种用于RSIs语义分割的频域增强型光谱-空间融合变换器。与仅在空间域中操作的先前方法不同，我们的方法在特征提取之前明确应用了固定的2D离散小波变换（DWT）将输入分解为低频和高频子带。这种分解允许模型通过独立但互补的路径处理粗略的语义结构和精细的纹理。基于这些子带，我们设计了两个轻量级模块：光谱增强注意力（SEA）模块选择性地放大频率分解特征中的判别性响应，以及光谱-空间上下文注意力（SSCA）模块，它在不引入任何可学习频率滤波器的情况下增强了子带间的长距离上下文交互。最后，通过逆DWT（iDWT）将精炼的特征重建回空间域，以实现密集预测。我们的贡献总结如下：

1.
我们提出了FSSFFormer，这是一种将固定小波分解与光谱-空间表示学习相结合的变换器架构。通过明确分离和重建多尺度频率成分，模型保留了对于遥感分割至关重要的全局语义连贯性和高频结构细节。
2.
我们设计了一种双分支的频率感知注意力机制，包括SEA和SSCA。SEA强调频率分离子带中的信息丰富光谱模式，而SSCA则增强跨空间和频率维度的上下文建模。这种组合提供了一种改进特征区分度和结构保真度的原理性方法。
3.
在ISPRS Vaihingen [13]、ISPRS Potsdam [14]和LoveDA [15]上的广泛实验表明，FSSFFormer相对于竞争基线实现了持续的改进。全面的消融研究进一步验证了频率分解的有效性以及SEA和SSCA的互补作用。

本文的其余部分结构如下：第2节回顾了频域学习和RSIs语义分割的相关工作。第3节详细描述了所提出的FSSFFormer。第4节介绍了实验设置、结果和分析。最后，第5节总结了本文并讨论了潜在的未来研究方向。

章节片段

RSIs的语义分割

RSIs的语义分割涉及将每个像素分类为特定的土地覆盖或土地利用类别。RSI分割的主要挑战在于地理空间覆盖的巨大多样性以及不同数据集之间光谱、空间和时间特性的变化。这些复杂性常常阻碍了现有深度学习模型的泛化能力，尤其是在应用于异构环境时。

概述

由于复杂的场景、传感器模式和环境变化，RSIs本质上包含了丰富的光谱和空间信息，这些信息在多个尺度和频率域中交织在一起。传统的语义分割方法主要在空间域中运行，其中卷积或基于注意力的模型根据局部上下文处理像素或块。然而，这种仅关注空间的设计在分离频率特定信息方面存在根本性局限。

数据集

为了评估我们提出的FSSFFormer的性能和泛化能力，我们在三个公开可用且广泛采用的基准数据集上进行了广泛实验：ISPRS Vaihingen、ISPRS Potsdam和LoveDA。这些数据集在空间分辨率、成像波段、城乡构成、类别定义和注释协议方面存在显著差异。这种异质性使它们能够代表多样化的真实世界遥感场景，但也意味着直接应用这些数据集可能存在挑战。

结论

在这项工作中，我们提出了FSSFFormer，这是一种基于频域的增强型变换器框架，旨在解决遥感图像细粒度语义分割中的持续挑战。通过将输入分解为小波子带并引入两个专门的注意力模块——光谱增强注意力（SEA）和光谱-空间上下文注意力（SSCA），所提出的架构明确地模拟了频率敏感表示与长距离空间之间的交互。

CRediT作者贡献声明

Xin Li：概念化、方法论、形式分析、调查、软件开发、验证、初稿撰写、审阅与编辑、可视化。

Feng Xu：监督、概念化、资源管理、方法论、审阅与编辑、项目管理。

Jiaxin Li：审阅与编辑。

Yuanchao Su：方法论、形式分析、审阅与编辑。

Linyi Li

：数据管理、可视化、验证、软件开发。

Xin Lyu

：调查、可视化、数据处理。

CRediT作者贡献声明

Xin Li：审阅与编辑、初稿撰写、方法论、资金获取、形式分析、概念化。

Feng Xu：初稿撰写、监督、项目管理、调查、资金获取。

Jiaxin Li：验证、软件开发、形式分析、数据管理。

Yuanchao Su：初稿撰写、形式分析、数据管理、概念化。

Linyi Li：验证、监督、软件开发、资源管理。

Xin Lyu：

项目管理。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号