用于红外与可见光图像融合的并行频率可逆对抗网络
《Knowledge-Based Systems》:Parallel frequency-invertible adversarial network for infrared and visible image fusion
【字体:
大
中
小
】
时间:2025年10月01日
来源:Knowledge-Based Systems 7.6
编辑推荐:
红外可见图像融合通过多模态传感器互补信息的整合提升场景感知能力,现有GAN方法存在特征处理纠缠、频率分离效率低及计算复杂度高的问题。本文提出并行频率可逆对抗网络PFI-Fuse,基于波let域分解采用分而治之策略,通过频率可逆生成器确保各频段信息完整传递,并设计波let调制损失动态优化频段贡献,实现结构保留、纹理增强与强度一致的平衡,实验验证其性能优于现有方法且计算高效。
红外与可见光图像融合技术旨在将多模态传感器互补的信息整合为一个更具信息量的单一表示,从而提升场景感知能力并促进计算机视觉任务的应用。尽管近年来该领域取得了显著进展,但现有的基于生成对抗网络(GAN)的方法仍然面临诸多挑战,包括整体特征处理的纠缠、低效的频率分离机制以及较大的计算开销。为了解决这些问题,本文提出了一种并行频率可逆的对抗网络——PFI-Fuse,用于红外与可见光图像融合。该网络在小波域中运行,采用“分而治之”的策略,对不同频率子带进行并行处理,使得模型能够更有效地捕捉全局结构和细粒度纹理。更为重要的是,我们引入了一种频率可逆的生成器,该生成器结合了可逆神经块,以确保在融合过程中关键的频率信息得以保留,从而实现信息损失最小化。此外,我们还引入了一种小波调制损失,该损失在对抗训练过程中动态调整各子带的贡献,使网络能够在所有频率成分中实现结构保留、纹理增强和强度一致性的平衡。广泛的实验结果表明,PFI-Fuse在多个基准测试和下游应用中均优于现有最先进的方法,不仅在定量指标上表现优异,而且在视觉质量方面也更胜一筹。同时,PFI-Fuse在计算效率方面也展现出明显优势。
图像融合的目标是将来自多模态图像的互补信息整合起来,以增强视觉感知并改善场景理解。在众多融合任务中,红外与可见光图像融合因其在计算机视觉中的广泛应用而成为重要的研究方向。可见光传感器通过光的反射来捕捉纹理细节,生成高分辨率图像,为场景感知提供了丰富的信息。然而,在低能见度环境或存在遮挡的情况下,可见光图像往往难以有效区分目标与背景。相比之下,红外传感器通过检测物体发出的热辐射,使其在复杂背景中对目标检测更为有效。此外,红外成像具备全天候成像能力,并且对光照变化和环境干扰的敏感度较低。通过结合两种模态的优势,红外与可见光图像融合可以生成一个包含可见光纹理细节和红外热目标的合成图像。这种融合显著提升了关键应用场景如RGB-T跟踪、显著性检测和人重识别等中的目标识别能力、情境感知和决策质量,进一步凸显了其在计算机视觉系统中的重要性。
在过去几年中,许多方法被提出以应对红外与可见光图像融合的挑战。这些方法包括基于多尺度变换、子空间分解、优化估计、混合模型等的方案。尽管这些方法在一定程度上推动了技术的进步,但它们也存在一些显著的局限性,阻碍了融合质量与效率的进一步提升。传统的图像融合方法通常依赖于手动设计的固定数学模型来提取特征。然而,这些模型在捕捉两种模态之间的内在差异方面存在不足,导致无法同时保留红外目标的亮度和可见光图像的细粒度纹理细节,从而产生融合效果不佳的问题。此外,这些方法通常依赖于复杂的数学框架,使得其在不同数据集和实际场景中的泛化能力较弱,往往需要进行任务特定的调整和参数优化以维持效果。另一个关键的限制在于手动配置活动水平测量和融合规则。这一过程不仅增加了计算复杂度,还削弱了传统融合方法的可扩展性和适应性,最终限制了其在实际应用中的潜力。
近年来,深度学习技术在图像融合领域取得了突破性进展,使得开发出超越传统手工设计方法的复杂技术成为可能。从整体上看,这些方法可以分为非生成模型和生成模型两大类。非生成模型包括基于自编码器(AE)、卷积神经网络(CNN)和Transformer的方案,它们主要关注特征提取和转换,而非直接图像生成。这些方法通过卷积操作或自注意力机制来表征源图像中的局部和全局关系。然而,由于缺乏真实的地面真值数据,这些方法难以有效利用监督学习范式,导致其泛化能力和灵活性受到限制。相较之下,生成模型将图像融合视为一个生成任务,通过学习数据的潜在分布来合成高质量的融合图像。这些模型具有更高的适应性和更优的感知真实性,因此在图像融合任务中表现出色。通常,基于生成对抗网络(GAN)的方法采用生成器-判别器框架,以生成高质量且符合人类视觉感知的融合输出。最近,去噪扩散概率模型(DDPM)也被应用于融合任务,通过反向扩散过程逐步去除随机噪声,从而重建结构化内容。然而,DDPM在计算上较为昂贵,因为生成高质量图像需要大量的迭代步骤,这使得其实时应用面临挑战。
尽管现有的基于GAN的融合方法在红外与可见光图像融合任务中展现了良好的性能,但仍存在一些关键的局限性,影响了其整体效果和效率。首先,大多数方法对输入图像进行整体处理,将所有特征视为同等重要,缺乏对不同频率子带的区分。这种处理方式无法充分考虑不同模态的独特特性,使得在保留红外目标亮度和可见光细节之间难以取得平衡,导致融合结果过于平滑。其次,现有的基于GAN的模型通常在像素域中运行,这使得其在区分有意义的结构和纹理方面存在困难。这一局限可能导致生成的融合图像出现不自然或模糊的情况,特别是在需要高阶语义理解的复杂场景中。最后,大多数方法需要对全分辨率图像进行直接处理,这给计算带来了较大的负担。同时,为了补偿可能的信息损失,往往需要采用更深层的网络架构,进一步增加了计算复杂度。
为了解决上述问题,本文提出了一种并行频率可逆的对抗网络——PFI-Fuse,专门用于红外与可见光图像融合。与传统的基于GAN的方法不同,PFI-Fuse在小波域中运行,采用“分而治之”的策略,对不同频率子带进行独立且并行的处理。这种分解机制使网络能够有效地捕捉低频结构信息和高频边缘细节,从而实现平衡且详细的融合过程。相比单一的GAN模型,PFI-Fuse在训练效率和稳定性方面均有显著提升。该网络的核心是一个频率可逆的生成器,其基于可逆神经网络(INN)构建,确保在融合过程中关键的频率信息不会丢失,从而使所有子带特征能够无缝整合。相较于传统的单分支GAN架构,这种设计不仅提升了训练的稳定性,还显著提高了计算效率。此外,我们还引入了一种新颖的小波调制损失,该损失在对抗训练过程中动态调整各频率子带的贡献,使得网络能够在所有频率成分中实现结构保留、纹理增强和强度一致性的优化,从而有效缓解过度平滑的问题,同时避免过度锐化的现象。
为了验证PFI-Fuse的优越性,我们通过图1展示了其与现有方法的定性对比。生成模型FusionGAN在空间域中运行,采用单一的对抗网络,能够保留红外目标的亮度。然而,它在保留细粒度场景细节方面存在不足,导致融合图像的背景模糊,纹理保真度较低。频率混合模型FAFusion在编码器-解码器框架中整合了空间和频率特征,虽然相较于纯空间域方法有一定程度的提升,但在红外目标亮度与背景细节保留之间仍难以实现稳健的平衡。其生成的图像通常存在亮度控制不足和结构清晰度不够的问题。相比之下,PFI-Fuse在强度控制、纹理保留和整体场景质量方面均表现出显著的提升。通过在小波域中采用“分而治之”的策略,PFI-Fuse能够分别处理不同频率子带,使网络更有效地捕捉全局结构和高频细节,从而生成更清晰、更具信息量且更符合人类视觉感知的融合图像。总体而言,本文的工作包括四个重要贡献。
首先,我们提出了一种并行对抗网络,采用“分而治之”的方式处理不同频率子带。这一方法不仅能够有效捕捉低频结构信息和高频边缘细节,还能够提升训练的效率和稳定性。其次,我们构建了一个频率可逆的生成器,该生成器利用可逆神经块来确保在融合过程中关键的频率信息不会丢失,从而实现所有频率成分的准确整合,减少信息损失。第三,我们设计了一种小波调制损失,该损失在对抗训练过程中动态调整各子带的贡献,引导网络优化全局结构、细粒度纹理和强度控制,从而生成高质量的融合输出。第四,我们对不同基准测试和下游应用进行了广泛的实验验证。实验结果表明,PFI-Fuse在融合评估和计算效率方面均达到当前最先进的水平,持续优于其他先进方法。
本文的其余部分组织如下:第二部分回顾了图像融合技术的发展历程;第三部分介绍了所提出的PFI-Fuse框架的整体结构和关键组件;第四部分展示了广泛的实验比较与分析;最后,第五部分对本文进行了总结,并阐述了关键发现。
相关工作部分对红外与可见光图像融合中的非生成模型和生成模型进行了综述,分析了它们各自的优势、局限性以及与本文方法的相关性。非生成模型通常依赖于手工设计的数学模型,如多尺度变换、子空间分解和优化估计等。这些方法在特征提取和转换方面表现良好,但它们的泛化能力受限,难以适应不同的数据集和实际场景。此外,由于缺乏监督学习的数据支持,这些方法在处理复杂场景时效果有限。生成模型则通过学习数据的潜在分布来合成高质量的融合图像,其中基于GAN的方法尤为突出。这些方法采用生成器-判别器的结构,通过对抗训练生成逼真的融合图像。然而,现有的GAN方法在处理不同频率子带时仍存在一定的局限性,例如无法有效区分不同频率成分的贡献,导致融合结果不够精细或过于平滑。同时,由于直接在像素域中进行处理,这些方法难以保留高频细节,使得生成的图像在某些情况下显得模糊。此外,大多数基于GAN的模型需要处理全分辨率图像,这使得计算成本较高,限制了其在实时应用中的可行性。因此,为了进一步提升融合效果和效率,本文提出了PFI-Fuse这一创新方法。
在方法论部分,我们详细介绍了PFI-Fuse的总体流程,包括并行对抗网络和小波调制损失的设计。PFI-Fuse的核心在于其在小波域中的运行方式。小波变换能够将图像分解为不同频率的子带,每个子带代表图像的不同特征成分。通过在小波域中进行处理,PFI-Fuse能够分别捕捉低频结构信息和高频边缘细节,从而实现更精确的融合。与传统的单一GAN模型相比,PFI-Fuse采用了并行处理策略,使得网络能够同时优化不同频率子带的融合效果,而不会因整体处理而导致某些特征被过度平滑或丢失。此外,我们设计的频率可逆生成器能够有效保留关键的频率信息,确保在融合过程中不会发生信息损失。这一设计基于可逆神经网络(INN),使得生成器在处理不同频率子带时具有更强的可逆性和稳定性。
为了进一步提升融合效果,我们引入了一种小波调制损失,该损失在对抗训练过程中动态调整各频率子带的贡献。这一机制使得网络能够根据实际需求,优化不同频率成分的融合效果,从而在结构保留、纹理增强和强度一致性之间取得更好的平衡。小波调制损失的引入,不仅提高了融合图像的质量,还增强了模型的适应性,使其能够在不同场景和数据集中保持良好的性能。此外,PFI-Fuse在训练过程中采用了更高效的优化策略,使得模型能够在较短时间内收敛,同时保持较高的融合质量。
在实验与讨论部分,我们首先介绍了实验配置,包括所使用的数据集、评估指标和对比方法。接着,我们进行了全面的实验比较,展示了PFI-Fuse在多个基准测试中的表现。实验结果表明,PFI-Fuse在定量指标和视觉质量方面均优于现有方法,特别是在强度控制、纹理保留和整体场景质量方面。此外,我们还评估了PFI-Fuse在下游应用中的表现,如RGB-T跟踪、显著性检测和人重识别等。这些应用展示了PFI-Fuse在实际场景中的价值,证明其在提升目标识别能力、情境感知和决策质量方面的有效性。我们还进行了消融实验,以验证各关键组件对模型性能的影响。实验结果表明,频率可逆生成器和小波调制损失的引入对模型的融合效果和效率具有显著提升作用。
综上所述,本文提出的PFI-Fuse方法在红外与可见光图像融合任务中展现出卓越的性能。通过在小波域中采用“分而治之”的策略,PFI-Fuse能够更有效地捕捉不同频率子带的特征,实现结构保留和纹理增强的平衡。频率可逆生成器的设计确保了关键信息在融合过程中的完整性,而小波调制损失则增强了模型的适应性和稳定性。广泛的实验结果验证了PFI-Fuse在多个基准测试和实际应用中的优势,证明其在提升融合质量的同时,还能显著提高计算效率。这些成果为红外与可见光图像融合技术的发展提供了新的思路和方法,具有重要的理论和应用价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号