基于空间-频率互补融合与多层次特征集的红外与可见光图像融合技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Digital Signal Processing》：Spatial-Frequency Complementary Fusion with Multi-level Feature Ensemble for Infrared and Visible Image Fusion

【字体：大中小】 时间：2026年02月12日 来源：Digital Signal Processing 3

编辑推荐：

　　多模态图像融合方法SFCFuse通过空间频率互补模块结合RePVGG多级特征提取，提升细节与纹理保留，实验验证优于九种SOTA方法。

Kanglin Jin | Mengtong Guo | Minghao Piao

苏州大学，中国江苏省苏州市215301

摘要

可见光图像提供了高空间分辨率和颜色信息，而红外图像能够在低光照或复杂条件下捕捉目标轮廓。有效整合这两种互补的模态对于生成既包含丰富细节又具有准确目标表示的融合图像至关重要。大多数现有的融合方法仅关注空间域处理，忽略了频率域信息，导致在复杂场景中无法充分保留细节。为了解决这一限制，我们提出了SFCFuse，它结合了一个基于RepVGG的多级特征提取器和一个由两个协同分支组成的空间-频率互补融合模块：空间自适应融合分支（SAFB）和频率融合分支（FFB）。SAFB根据特征重要性自适应地分配权重，而FFB处理幅度和相位分量以捕获细粒度频率信息。我们在四个基准测试上将我们的方法与九种最先进的融合方法进行了比较，结果显示在EN、Q^AB/F和MS–SSIM指标上表现更优，细节和纹理保留方面优于竞争方法。

引言

图像增强旨在提高图像的视觉质量，使其更适于人类感知和计算分析。然而，在复杂的应用场景中，单一模态的图像往往缺乏足够的信息。为了解决这一限制，开发了图像融合技术，以整合来自多个传感器或视角的信息，从而生成细节更丰富、内容更丰富的图像。通过利用多模态数据的互补优势，图像融合增强了视觉感知和分析效用。

红外图像与可见光图像的融合（IVIF）旨在生成既能保留显著目标又能丰富场景信息的融合图像[1]、[2]、[3]。可见光相机能够捕捉高分辨率的图像，具有详细的纹理和丰富的颜色信息。然而，它们的性能受到光照条件等环境因素的显著影响，在低光照条件下可见度较差。相比之下，红外相机能够检测热辐射，从而在低光照和夜间条件下实现有效的成像。但是，它们缺乏可见光图像中的高空间分辨率细节和颜色信息。通过整合红外和可见光图像，IVIF利用了它们的互补优势，在低可见度条件下产生视觉细节更丰富的图像，提高了图像质量，并增强了在复杂环境中的适应性，使其在监控、军事行动和自动驾驶等应用中具有价值[4]、[5]。

近年来，IVIF算法取得了显著进展，大致可以分为传统方法和基于深度学习的方法[6]、[7]、[8]。传统融合技术可以进一步分为三类：基于像素的融合模型[9]、基于变换的模型[10]、基于显著性的模型[11]以及其他模型。基于像素的方法在保留细节时常常会导致信息丢失。基于变换的方法对参数选择和噪声非常敏感，而基于显著性的方法容易受到噪声影响，并可能放大图像中的无关区域。

近年来，深度学习方法发展迅速，显示出相对于传统融合技术的明显优势[12]、[13]、[14]。这些方法能够自动学习层次化和复杂的特征表示，对不同的成像条件和场景复杂性具有很强的适应性，并且适合处理大规模数据集。基于深度学习的融合模型主要可以分为三类：基于自动编码器的模型[15]、[16]、基于生成对抗网络（GAN）的模型[17]、[18]以及基于变换器的模型[19]、[20]。自动编码器模型结构简单，易于训练和实现。

然而，它们在高分辨率和复杂场景中可能会丢失细节，卷积层的深度堆叠可能导致源图像中的低级信息（如边缘和线条）丢失。基于GAN的模型能够在复杂场景中生成高质量的融合图像，但训练不稳定且难以捕捉全局关系。变换器模型能够有效捕捉长距离依赖性和全局信息，适用于结构化数据，但计算密集且需要较长的训练时间。

为了解决这些限制，我们提出了一个创新的多级融合网络，该网络整合了空间域和频率域特征。空间域和频率域的表示捕获了互补的信息：空间特征保留了结构一致性、物体形状和语义连贯性，而频率特征编码了边缘、纹理和通常具有模态特异性的细节[21]、[22]。与依赖单一信息整合形式的现有融合策略（如像素级融合[23]、空间域中的特征级融合[24]或没有明确频率建模的基于注意力的聚合[25]）相比，空间-频率融合明确地将全局结构信息与高频细节分开。这种设计使网络能够以更精确的方式利用互补的表示，从而减少了在融合异构信息时常见的结构失真和纹理退化。

在频率域中，受先前研究的启发[26]，图像的幅度谱和相位谱代表不同的含义。如图1所示，亮度信息主要集中在幅度谱中，而结构信息主要体现在相位谱中。我们整合了源图像的幅度谱，以防止亮度变化影响结构细节，从而保留图像的高频成分。

基于上述发现并解决这些限制，我们提出了一个整合空间域和频率域特征的多级融合网络。首先，我们引入了一个基于注意力机制的新型自适应空间域融合模块，该模块动态地为红外和可见光特征中的每个像素分配权重。这种机制有效地保留了重要细节，同时抑制了无关信息。空间域和频率域之间的相互作用促进了两种模态互补信息的更有效融合。其次，在频率域中分离亮度和结构信息，并依次融合它们，以保留图像的丰富纹理信息。最后，我们采用多级特征提取策略进一步提高图像质量并保留复杂细节。这种方法增加了在不同尺度上捕获的特征多样性，确保了全局和局部信息的全面表示。

本文的主要贡献可以总结如下：

•
空间-频率互补融合模块（SFCFM）整合了多级空间和频率特征，在频率域中分离亮度和结构信息，然后依次融合它们，以增强复杂背景下的细节保留。
•
所提出的多尺度特征提取方法使用不同级别的RepVGG块来有效捕获和融合多分辨率信息，从而改进了细节和纹理的表示。

提出的方法

在本节中，我们将详细介绍空间-频率互补融合器（SFCFuse）的整体结构，随后解释网络架构和损失函数。

实验

在本节中，我们首先介绍实验设置，然后分析实验结果，最后进行消融实验。

结论与讨论

本文提出了一个多模态图像融合框架，通过提出的空间-频率互补融合模块（SFCFM）将自适应空间融合与频率域融合相结合。利用RepVGG骨干进行多级特征提取，我们的方法保留了细节，增强了纹理保真度，并减少了伪影。在多个具有挑战性的数据集上的实验表明，所提出的网络在各项指标上始终优于九种最先进的方法。

未引用的参考文献

缺少参考文献表3、表4和表6。

CRediT作者贡献声明

Kanglin Jin：概念化、方法论、软件开发、调查、形式分析、撰写——原始草稿。Mengtong Guo：数据整理、撰写——原始草稿。Minghao Piao：可视化、调查。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作