SDLFusion:一种基于显著性感知的差异化学习网络,用于红外图像与可见光图像的融合

《Knowledge-Based Systems》:SDLFusion: A salient-aware differentiated learning network for infrared and visible image fusion

【字体: 时间:2025年11月08日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  红外可见光图像融合中,现有方法因统一处理全图忽略区域特征差异,导致融合质量不足。本文提出SDLFusion框架,通过显著性感知区域分割实现区域化特征提取,结合差异化注意力机制(含频域引导跨模态Transformer和空间交互注意力模块),并构建场景重建路径与混合损失函数,显著提升显著区域细节和背景区域上下文信息。实验表明,该方法在多指标评估中优于现有方法,且语义分割任务验证了其在高阶视觉任务中的优势。

  图像融合是一种通过结合不同来源图像之间的互补性,合成出包含丰富信息的图像的技术。随着先进成像技术和深度学习方法的发展,图像融合在学术研究和工业应用中受到了越来越多的关注,如夜间视频监控、语义分割以及目标检测等领域。传统的图像融合方法通常采用统一的特征提取和融合策略对整个图像进行处理,这种方法忽略了图像中不同区域之间的特征差异,导致融合效果不佳。为了解决这一问题,本文提出了一种基于显著区域感知的差异化学习网络(Salient-Aware Differentiated Learning Network for Infrared and Visible Image Fusion,简称 SDLFusion),该网络通过显著区域感知的区域融合策略学习显著区域和背景区域之间的固有差异,并利用差异化注意力机制捕捉互补特征。

首先,显著区域感知的区域融合策略被设计用于将源图像中的显著区域与背景区域分离,从而采用不同的方式进行特征提取。接着,差异化注意力机制被开发用于在显著区域和背景区域中进行特征交互,该机制包括频率集成模块、频率引导的交叉Transformer以及空间交互注意力模块。此外,我们引入了场景重建路径,使得区域特征能够包含来自源图像的丰富信息。最后,为了确保融合结果的高质量,采用了混合损失函数,以增强融合图像中有效信息的保留。大量的定性和定量实验表明,所提出的 SDLFusion 方法在多种数据集上优于现有的图像融合方法。值得注意的是,语义分割实验的结果突显了我们的方法在高级视觉任务中的潜力。

本文的研究重点在于解决传统图像融合方法在复杂场景中表现不佳的问题。目前,红外与可见光图像融合是多模态图像融合的典型代表。可见光图像具有丰富的纹理信息,但容易受到环境因素的影响,而红外图像则基于热辐射提供了稳定的成像,但缺乏对场景细节的精细描述。因此,如何有效地整合红外与可见光图像中的信息,生成包含丰富场景信息的融合图像,仍然是一个重要的挑战。

近年来,研究人员在传统红外与可见光图像融合领域进行了大量探索。例如,一些方法采用数学理论来提取图像特征,包括稀疏表示、子空间变换、多尺度变换、显著性分析以及混合方法。然而,这些方法依赖于预定义的数学操作和融合策略,限制了其在复杂场景中的应用效果。随着深度学习的快速发展,新的机会出现在图像融合特征提取的领域。通常,基于深度学习的红外与可见光图像融合框架构建在自编码器(AE)、卷积神经网络(CNN)以及生成对抗网络(GAN)之上。这些方法利用局部感受野来捕捉红外与可见光图像之间的局部信息。同时,一些基于视觉Transformer(ViT)的方法被提出,以捕捉全局信息并学习长期依赖关系,这些方法在许多图像融合任务中优于基于CNN和GAN的方法。然而,现有的图像融合方法通常将整个红外与可见光图像视为统一的输入,忽略了源图像中显著区域和背景区域之间的信息差异,导致融合图像中的显著区域可能缺乏精细的纹理细节,而背景区域可能包含不足的上下文信息。

为了实现区域特定的融合,本文提出了一种基于显著区域感知的差异化学习网络,该网络能够选择性地提取区域特定的特征,并生成包含全面场景信息的融合图像。首先,我们设计了一种显著区域感知的区域融合策略,通过显著掩码将每个源图像分割为显著区域和背景区域。接着,引入了差异化注意力机制,以实现区域特定的特征交互,从而全面实现所提出的融合策略。具体来说,在显著区域的处理流程中,我们首先应用频率集成模块,以聚合特征图中的显著成分。此外,设计了频率引导的交叉Transformer,通过频率信息引导红外与可见光表示之间的交互,以优化显著特征。在背景区域的处理流程中,我们开发了空间交互注意力模块,该模块包括空间-通道注意力模块和坐标交互注意力模块,以充分捕捉场景信息。具体而言,空间-通道注意力模块被设计用于增强同一模态中的空间位置编码,而坐标交互注意力模块则被引入以促进不同模态之间的场景信息交换。随后,我们应用了区域场景重建路径,以在融合特征中保留尽可能多的源信息。最后,采用了混合损失函数,对融合图像和重建的场景输出进行联合约束,从而生成包含全面特征信息的最终图像。

本文的主要贡献如下:首先,提出了一种基于显著区域感知的差异化学习网络用于红外与可见光图像融合,通过将源图像分割为不同的区域,并采用定制的特征提取和融合方法,实现了全面的场景信息整合,从而达到优异的融合效果。其次,开发了一种显著区域感知的区域融合策略,该策略的核心是差异化注意力机制。具体而言,我们设计了频率引导的交叉Transformer,以在特征图中整合显著信息,并引入了空间交互注意力模块,以促进全面的上下文场景信息交换。最后,通过大量的实验验证了所提出方法的优越性,不仅在多种评估指标上优于现有方法,而且在语义分割实验中也证明了该融合方法在高级视觉任务中的优势。

在实验验证部分,首先介绍了实验设置和实现细节。然后,我们评估了所提出方法在不同数据集上的融合性能,并将其与竞争方法进行比较。此外,我们进行了语义分割实验的对比,以展示我们的方法在高阶视觉任务中的优越性。最后,进行了消融研究,以验证所提出方法的有效性。通过这些实验,我们能够全面评估 SDLFusion 方法在不同场景下的表现,并验证其在提升图像融合质量方面的有效性。

在本文的研究中,我们还讨论了传统图像融合方法的局限性。这些方法通常采用数学变换来实现图像融合,如稀疏表示、子空间变换、多尺度变换、显著性分析和混合方法。例如,Li 等人 [6] 提出了一种基于潜在低秩表示的多级图像分解方法,用于红外与可见光图像融合。此外,Fu 等人 [27] 开发了一种基于非下采样轮廓波变换的红外与可见光图像融合算法。然而,这些方法在复杂场景中的表现受到限制,无法有效适应不同区域之间的特征差异。

本文提出的 SDLFusion 方法在结构上具有创新性,能够实现区域特定的特征交互。通过显著区域感知的区域融合策略,我们能够将源图像中的显著区域与背景区域分离,并采用不同的方式进行特征提取。这种策略使得图像融合能够更精准地捕捉不同区域的特征信息,从而提升融合图像的质量。此外,差异化注意力机制的引入使得图像融合能够在不同区域中进行更有效的特征交互,包括频率集成模块、频率引导的交叉Transformer以及空间交互注意力模块。这些模块分别负责不同的任务,如频率集成模块用于整合显著信息,频率引导的交叉Transformer用于优化显著特征,空间交互注意力模块则用于促进不同模态之间的场景信息交换。

在实际应用中,SDLFusion 方法能够有效提升红外与可见光图像融合的效果。例如,在夜间视频监控中,融合图像能够提供更清晰的视觉信息,帮助监控系统更准确地识别目标。在语义分割任务中,融合图像能够提供更丰富的上下文信息,从而提升分割的精度和鲁棒性。此外,在目标检测任务中,融合图像能够提供更全面的特征信息,有助于检测算法更准确地定位和识别目标。

本文的实验部分展示了 SDLFusion 方法在不同数据集上的表现。通过对比实验,我们能够验证所提出方法在融合质量方面的优势。此外,语义分割实验的结果进一步证明了 SDLFusion 方法在高级视觉任务中的潜力。通过消融研究,我们能够验证各个模块对融合效果的贡献,从而进一步优化网络结构和参数设置。

综上所述,本文提出的 SDLFusion 方法通过显著区域感知的区域融合策略和差异化注意力机制,有效解决了传统图像融合方法在复杂场景中表现不佳的问题。该方法不仅能够实现区域特定的特征提取和融合,还能够提升融合图像的质量,使其在各种视觉任务中表现出色。通过大量的实验验证,我们能够全面评估 SDLFusion 方法的性能,并验证其在提升图像融合质量方面的有效性。本文的研究为未来的图像融合技术提供了新的思路和方法,具有重要的理论和应用价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号