《Science of Remote Sensing》:FFCDNet: Remote Sensing Image Change Detection Method Based on Fourier Frequency Domain Feature Enhancement
编辑推荐:
遥感影像包含丰富的局部结构细节与复杂的全局变化模式。然而,卷积神经网络(CNN)、Transformer和Mamba方法各自存在固有局限——分别为受限感受野、高计算复杂度和方向偏置,难以实现局部与全局表示的平衡建模。为解决这些问题,研究人员提出了一种基于傅里叶
遥感影像包含丰富的局部结构细节与复杂的全局变化模式。然而,卷积神经网络(CNN)、Transformer和Mamba方法各自存在固有局限——分别为受限感受野、高计算复杂度和方向偏置,难以实现局部与全局表示的平衡建模。为解决这些问题,研究人员提出了一种基于傅里叶(Fourier)频域特征增强的遥感影像变化检测方法,旨在高效且准确地捕获双时相(bitemporal)影像中的细粒度空间细节与非方向性全局结构信息。具体而言,构建了名为FFCDNet的端到端傅里叶编码器—解码器框架。首先引入频域混合增强块(Frequency-domain Hybrid Enhancement Block,FHEB),其基于快速傅里叶变换(Fast Fourier Transform,FFT)集成了并行的局部卷积分支与全局频域分支。该设计在实现非方向性、整体性长距离依赖建模的同时保留了空间细节。特别地,FHEB将复频谱分解为实部与虚部并分别学习;研究人员并不假定这些分量与特定空间或频率特征之间存在严格对应关系,而是将其视为共同有助于建模全局结构信息与细粒度空间细节的互补表示。其次,设计了自适应双时相交互模块(Adaptive Bitemporal Interaction Module,ABTIM),通过全局—局部引导特征融合与自适应门控机制实现动态跨时相融合与差异增强,从而提取最具判别性的变化特征。通过联合建模频域与时相交互,所提框架在不依赖循环扫描结构的情况下实现了全局上下文与局部细节的统一感知。大量实验表明,所提FFCDNet在多个遥感变化检测基准数据集上一致优于现有先进模型,展现出更优的精度、边界保真度与泛化能力。
该研究发表于《Science of Remote Sensing》。研究背景方面,遥感影像变化检测旨在识别不同时间获取观测中的地表变化,在城市扩张监测、生态评估、灾后损毁检测等方面具有重要作用。随着高分辨率光学影像的普及,变化检测方法需同时捕获细粒度局部结构细节与复杂全局变化模式,但在现有深度学习框架中,有效平衡局部与全局特征建模仍是核心挑战。CNN方法擅长捕获局部空间特征,但受限感受野难以建模长距离依赖,导致全局结构信息表示不足;Transformer方法通过自注意力(self-attention)实现全局依赖建模,但计算复杂度随影像分辨率呈平方增长,易受高分辨率遥感影像空间冗余影响,计算成本高,且对边界细节和小尺度变化捕捉较弱;Mamba等结构化状态空间模型(Structured State Space Models,SSM)在序列建模上效率更优,但其固有方向扫描机制引入二维空间建模的方向偏置,难以实现非方向性、整体性特征表示,且在边界细节和小尺度变化表示上常不及卷积模型。此外,现有频域建模在变化检测中多作为辅助线索,缺乏结构化频域建模与空间域特征的统一框架。为此,研究人员开展本研究,提出基于傅里叶频域特征增强的FFCDNet框架,设计频域混合增强块(FHEB)并行融合局部卷积路径(Local Feature Path,LFP)与全局频域路径(Global Frequency Feature Path,GFFP),并将复频谱显式分解为实部与虚部分别学习;设计自适应双时相交互模块(ABTIM)通过长程上下文交互单元(Long-Range Contextual Interaction Unit,LRCIU)与细粒度空间对齐模块(Fine-Grained Spatial Alignment Module,FSAM)及自适应门控实现双时相动态融合与差异增强;构建端到端编解码结构,采用混合损失函数(交叉熵损失Cross-Entropy Loss、Dice损失、交并比损失IoU Loss加权组合)优化。研究结论为FFCDNet在LEVIR-CD+、SVCD、JL1-CD、S2Looking等多个基准数据集上综合性能优于主流CNN、Transformer、Mamba基线的变化检测方法,在精度、IoU、F1、边界保真度、小目标变化检测及计算效率间取得更优平衡,验证了傅里叶频域特征增强对全局非方向性建模与局部细节保留的有效性,为遥感变化检测提供轻量、高效、鲁棒的新思路。意义在于弥补了现有架构在局部—全局平衡、方向偏置、效率上的不足,为频域与空域联合建模及轻量变化检测模型设计提供了参考。
关键方法如下:研究人员采用四个公开基准数据集(LEVIR-CD+由Google Earth高分辨率建筑变化样本组成,SVCD源自Google Earth并侧重季节纹理变化,JL1-CD由吉林一号卫星高分辨率多类型变化样本构成,S2Looking由高分、SuperView、北京二号等卫星斜视角农村区域建筑变化样本组成);构建端到端孪生(Siamese)编解码框架FFCDNet,编码器由多级频域混合增强块(FHEB)构成,每个FHEB并行设置局部特征路径(LFP,含3×3卷积与SiLU激活)与全局频域特征路径(GFFP,先将二维特征展平为一维序列,沿序列维做一维快速傅里叶变换FFT得到复频谱,分解实部与虚部分别经独立线性变换后再重组为复频谱、逆FFT回序列并线性输出),两路输出逐元素相加后经线性投影与可学习缩放残差连接融合;双时相编码特征输入自适应双时相交互模块(ABTIM),其内部并行长程上下文交互单元(LRCIU,基于Conv1D与类SSM结构提取全局引导特征并通过Sigmoid门控校准目标时相特征)和细粒度空间对齐模块(FSAM,基于二维卷积提取局部空间引导特征并通过门控作用于目标时相),两单元输出经全局池化拼接过线性层与Softmax得门控分数加权融合,交换双时相角色得两融合特征后逐元素绝对差得到差异特征;解码器对多级差异特征依次上采样(转置卷积)、与同尺度编码器差异特征逐元素加(跳跃连接)、经DecoderBlock(两层卷积+归一化)细化,最后用1×1卷积+Softmax输出像素级变化概率图;损失函数为交叉熵损失(权重0.3)、Dice损失(权重0.2)、IoU损失(权重0.5)加权和;实验以Precision、Recall、F1、IoU、Accuracy为指标,对比FC-EF、FC-Siam-conc、FC-Siam-diff、SNUNet、BIT、Paformer、ACABFNet、RS-Mamba、ChangeMamba、CDMamba等基线,开展FHEB各阶段移除、实部/虚部分支移除、ABTIM整体与子单元移除、频域操作类型(标准FFT无分解、DCT、小波)、融合策略(相加、拼接+线性、自适应门控)、可学习残差缩放因子α消融,以及频域基线(FFC-CD、Freq-CD、FASI-Net)对比、多次独立运行统计、Boundary IoU与小规模变化F1等评估;实现基于PyTorch,四块NVIDIA Tesla A30,60 epoch,batch size 6,Adam优化器,输入统一裁剪为256×256。
研究结果如下:
- 2.
Related work and problem statement:研究人员综述了CNN基方法(如FC-EF、FC-Siam-conc、FC-Siam-diff及后续引入密集连接、多尺度监督、注意力、差异增强、加权融合等改进),指出其稳定捕捉局部纹理边缘但受限感受野难以高效建模大尺度全局结构或长距离语义依赖,双时相融合常缺乏自适应交互而易致误检漏检;Transformer基方法(如纯Transformer、CNN+Transformer混合、插入Transformer层的孪生架构等)利用自注意力建模全局依赖与双时相交互,提升语义一致性但具平方复杂度、高分辨率下计算成本大、边界与小变化弱、伪变化下易过响应;Mamba基方法(如Vision Mamba、VMamba、ChangeMamba、RS-Mamba、DC-Mamba、CDMamba等)以线性复杂度建模全局语义,但方向扫描 flatten 二维为序列引入空间结构偏置、非方向整体性弱、边界细节不及卷积、缺乏专门局部—全局融合机制;傅里叶变换(Fourier transform)与动机部分指出频域具非方向性、整体性全局表示能力,可将长程相关与宏观结构统一为频率分量,避免扫描或注意力的方向偏置,现有频域方法多用于去噪、去雾、去雨、谱—视觉融合、快速傅里叶卷积(Fast Fourier Convolution,FFC)、频率解耦、频域辅助语义交互等,但在变化检测中多为辅助、缺乏显式内部分解与统一空—频框架;研究人员由此设计FHEB做结构化频域建模(显式分解实部与虚部独立学习、并行局部—全局路径统一块)以弥补上述空白。SAM(Segment Anything Model)基变化检测方法多依赖大规模预训练与适配微调,与FFCDNet(标准协议下训练的轻量任务专用网络)属不同技术设定,故只做相关讨论不做定量对比。
- 3.
Methodology:研究人员构建FFCDNet整体为孪生结构,输入双时相影像经共享权值的浅卷积流提取初始特征图,再进入多级FHEB编码器逐级下采样提取多尺度深特征;之后双时相深特征输入ABTIM做跨时相交互引导融合得到多尺度差异特征;解码器逐级上采样与编码器同尺度差异特征跳跃逐元素加后经DecoderBlock细化,最后线性投影输出像素级变化概率图。FHEB先对输入做层归一化(LayerNorm),并行进入LFP(3×3 Conv2d+SiLU)与GFFP(二维特征展平为一维序列,沿序列维做一维FFT得复频谱,分解为实部与虚部分别独立线性变换,重组复频谱、逆FFT回序列、线性层输出),两路输出逐元素加后线性投影,再与原始输入通过可学习缩放因子α的残差连接得到增强特征。ABTIM内部并行LRCIU(将一个时相特征展平序列经Conv1D与类SSM提取全局引导,Sigmoid门控校准另一时相特征)与FSAM(另一时相特征经Conv2d提取局部空间引导,门控作用于目标时相),两输出分别记为对应引导结果;将双时相特征各作一次引导(交换角色)得两组融合特征,空间池化拼接过线性+Softmax得两组门控分数分别加权对应LRCIU与FSAM输出得两时相各自融合特征,逐元素绝对差得最终差异特征。解码器从最高级差异特征开始,每级上采样(转置卷积)与同尺度编码器差异特征逐元素加,经DecoderBlock(两层卷积+归一化)细化,迭代至输入分辨率,最后1×1卷积+Softmax得变化概率图。损失函数为L = 0.3×LCE+ 0.2×LDice+ 0.5×LIoU,其中LCE为交叉熵,LDice为Dice损失,LIoU为IoU损失。
- 4.
Experiments and analysis:研究人员在LEVIR-CD+(637对1024×1024,0.5 m,建筑变化)、SVCD(11对多时相Google Earth影像裁为256×256,季节纹理变化)、JL1-CD(5000对512×512,0.5–0.75 m,吉林一号,人造与自然变化)、S2Looking(5000对1024×1024,0.5–0.8 m,斜视角农村建筑变化)四个数据集上对比10种基线(FC-EF、FC-Siam-conc、FC-Siam-diff、SNUNet、BIT、Paformer、ACABFNet、RS-Mamba、ChangeMamba、CDMamba),指标为Precision、Recall、F1、IoU、Accuracy。结果显示FFCDNet在LEVIR-CD+得F1=0.9216、IoU=0.8606、Acc=0.9358,SVCD得F1=0.9776、IoU=0.9568、Acc=0.9821,JL1-CD得F1=0.8807、IoU=0.7966、Acc=0.9003,S2Looking得F1=0.8543、IoU=0.7695、Acc=0.8708,均为最优或并列最优,视觉结果边界更清晰、误检更少。FHEB消融(移除各阶段FHEB、全移除替换为Conv、移除实部分支、移除虚部分支)表明移除浅层FHEB(阶段1、2)性能下降更显著,实部与虚部均不可或缺且虚部(相位相关)移除影响更大,全移除下降超10% F1/IoU;特征热力图显示FHEB保留小目标关注与全局大目标感知,缺FHEB则特征混乱。ABTIM消融(全移除、仅移除LRCIU、仅移除FSAM)表明ABTIM整体贡献明显(降2–5% F1/IoU),LRCIU比FSAM更重要但两者协同效果最优。额外消融(频域操作替代:标准FFT无分解、DCT、小波;融合策略:相加、拼接+线性、自适应门控;可学习缩放α移除)表明所提显式实部/虚部分解+相加融合+α为较优组合;边界IoU(BIoU)与小变化F1(F_small)评估显示FFCDNet优于对比基线,LFP细节与GFFP全局结构互补提升边界与小目标性能。计算效率分析表明FFCDNet参数量11.1 M,FLOPs 25.79×109,THOPs 9.22×106,低于多数Transformer与Mamba基线,效率高。频域特征可视化表明FFT基编码具全局感受野、平移不变、频带可解释,与CNN(局部高响)、Transformer(块状全局纹理)、Mamba(方向平滑)形成互补。与频域基线(FFC-CD、Freq-CD、FASI-Net)对比显示FFCDNet结构频域建模更优;五次独立运行统计(Wilcoxon检验)表明FFCDNet稳定优于频域基线。跨数据集泛化与鲁棒性验证支持其泛化能力。
讨论部分总结:研究人员讨论了FFT可能边界伪影与全局谱混合问题,指出现有框架内卷积提供隐式空间正则、中间特征已语义平滑、逆FFT回空域端到端训练可自适应学习鲁棒表示,实验未见显著劣化。计算成本对比表明FFCDNet在参数量、FLOPs、THOPs上均较低,适合大规模或实时遥感变化检测。频域模块价值分析指出傅里叶编码具O(N log N)成本、全局感受野、平移不变、频带可控,补强CNN、Transformer、Mamba的方向偏置或效率短板,尤适周期结构、广域细微变化、配准误差与辐射差异鲁棒性。附加对比与鲁棒性实验(频域基线、多次运行统计、Boundary IoU、小变化F1)进一步验证结构频域建模有效且稳定。结论部分翻译:本研究针对遥感变化检测中局部结构建模与全局模式表示平衡难题,提出高效傅里叶频域特征增强变化检测框架FFCDNet。方法采用频域混合增强块(FHEB)实现局部卷积路径与全局频域路径并行融合,在非方向性频域空间高效捕获长距离依赖同时保留空间细节完整性;自适应双时相交互模块(ABTIM)利用全局与局部特征引导的动态融合机制显著增强双时相差异特征表示。实验结果表明FFCDNet在多个公开变化检测数据集上优于主流CNN、Transformer、Mamba基模型,在检测精度、边界保真度、泛化能力方面表现更优。总体而言,本研究为将谱特征建模集成到深度变化检测中提供了频域增强视角,为轻量、多模态、高分辨率遥感变化检测方法的发展提供了有益见解。