通过多信息交互技术,增强可见光细节和红外热辐射,实现双模式成像系统

《Journal of Visual Communication and Image Representation》:Enhanced visible light detail and infrared thermal radiation for dual-mode imaging system via multi-information interaction

【字体: 时间:2025年09月25日 来源:Journal of Visual Communication and Image Representation 3.1

编辑推荐:

  双模光学成像系统融合可见光与红外图像,提出卷积-Transformer块(CSTB)结构及多组件损失函数,有效提取局部细节与全局语义信息,提升融合图像的边缘纹理、结构特征和亮度信息,在Target_GDUT数据集上验证了同步增强可见光细节与红外热辐射的能力。

  在当前的双模光学成像领域,图像融合技术已经成为一种关键手段,通过整合不同模态图像的互补信息,提升成像质量与信息表达能力。这种技术在可见光与红外图像融合中表现尤为突出,因为其不仅能够改善空间分辨率,还能有效抑制冗余信息,从而提高目标识别的准确性。然而,现有的图像融合方法在特征提取与融合阶段往往忽略了多特征信息之间的相互作用,导致在提取可见光细节与红外热辐射信息时效果有限。为了解决这一问题,我们构建了一个双模光学成像系统,并提出了一种结合卷积-滑动窗口Transformer模块(Convolution-Swin-Transformer Blocks, CSTBs)的图像融合方法。该方法通过卷积与滑动窗口Transformer的协同作用,增强图像中局部与全局信息之间的交互与提取能力。同时,我们的方法还加强了浅层像素级信息与深层语义表示之间的综合交互与融合,以提升图像融合的整体性能。

在可见光与红外图像融合中,可见光图像能够提供丰富的场景细节,包括颜色信息和精细纹理,这使得目标的边界和结构在可见光图像中易于识别。然而,当目标的颜色或纹理与背景相似时,可见光图像在目标识别方面存在较大的困难,尤其是在复杂背景或恶劣天气条件下,其对光照变化的敏感性也限制了其应用效果。相比之下,红外图像能够有效捕捉目标的热辐射信息,这使得其在低能见度环境下(如夜晚、雾天或尘土飞扬的环境)具备较强的环境适应能力。然而,红外图像在背景纹理和目标结构细节方面表现较弱,这限制了其在某些应用场景中的识别精度。因此,如何有效地从可见光与红外图像中提取互补信息,并设计出能够充分发挥各自优势的融合策略,成为当前研究中的一个重要挑战。

图像融合的过程受到所使用数据集特性的影响,而融合策略的选择则依赖于具体应用场景。在我们的研究中,重点聚焦于双模光学成像在航空目标识别中的应用。为此,我们构建了一个双模光学成像系统,该系统包含一台中波红外相机(Tigris 640)和一台可见光相机(FLIR BFS-U3-51S5M-C),用于同时采集目标的可见光与红外图像信息。在数据采集过程中,我们特别考虑了复杂的背景环境,包括草地和昏暗天空等场景,并通过不同的视角(如俯仰角和偏航角)进行图像采集。这一过程最终获得了数百组双模图像对,为后续的图像融合提供了高质量的数据基础。

在图像融合过程中,我们首先对采集到的图像进行严格的配准与对齐,以确保不同模态图像在空间位置上的一致性。这一过程是图像融合的基础,只有在图像对齐的前提下,才能进行有效的特征提取与融合。随后,我们引入了一种新型的图像融合方法,该方法通过多信息交互机制,结合卷积-滑动窗口Transformer模块(CSTBs),实现了对可见光细节与红外热辐射信息的高效融合。其中,卷积模块采用统一前馈卷积网络(Unified Feedforward Convolution Network, UFCN),而Transformer模块则使用滑动窗口Transformer(Shifted Window Transformer, SWT)。这种模块设计能够增强图像中局部与全局信息之间的交互能力,同时通过不同层次的特征图像融合,提升浅层像素级细节与深层语义表示之间的融合效果。

为了进一步提升图像融合的质量,我们还设计了一种多组件损失函数,该损失函数结合了Sobel梯度算子(Sobel Gradient Operator, SGO)、结构相似性指数测量(Structural Similarity Index Measurement, SSIM)和均方误差(Mean Square Error, MSE)等指标,以增强融合图像在边沿纹理、结构特征和亮度信息方面的表达能力。这种损失函数能够有效引导融合过程,使得生成的融合图像不仅保留了可见光图像的细节信息,还能突出红外图像的热辐射特征。通过这种方式,我们实现了对双模图像信息的全面整合,从而提升了目标识别的准确性与鲁棒性。

在图像融合领域,传统方法通常依赖于多尺度变换、稀疏表示和子空间分析等技术。然而,这些方法大多采用人工设计的融合策略,导致其泛化能力受限,同时在处理复杂场景时也容易出现信息丢失的问题。近年来,随着深度学习技术的发展,基于神经网络的图像融合方法逐渐成为主流。这些方法通过强大的非线性拟合能力,能够自动学习图像特征并进行多模态信息的融合。目前,研究人员提出了多种经典网络架构,包括自编码器网络(Auto-Encoder Networks, AEN)、生成对抗网络(Generative Adversarial Networks, GAN)和卷积神经网络(Convolution Neural Networks, CNN)。自编码器网络通过编码器提取多源图像的深层特征,并通过解码器重建融合图像,这种方法在无监督特征压缩与重建方面表现出色,但在融合规则的设计上仍依赖人工干预,限制了其适应性。生成对抗网络则利用对抗学习机制,通过生成器生成融合图像,同时通过判别器确保生成图像与源图像之间的一致性,这种方法在生成高质量融合图像方面具有潜力,但对源图像与融合图像之间的概率分布对齐存在过度约束,容易引入人工伪影,影响输出质量。卷积神经网络通过局部感受野和权重共享机制,能够自动学习图像的层次特征,通过端到端训练直接将多源输入映射到融合输出,这种方法在图像融合任务中取得了良好的效果,但其性能高度依赖于精心设计的损失函数。尽管如此,大多数卷积神经网络方法仍局限于局部感受野,无法有效捕捉全局上下文信息,这在面对复杂应用场景时可能导致目标信息的丢失。

为了克服传统方法的局限性,我们引入了基于Transformer的图像融合方法。Transformer模型以其自注意力机制著称,能够有效捕捉图像中的全局上下文信息,并在多种视觉任务中表现出色,包括图像融合。基于Transformer的融合方法在一定程度上解决了卷积神经网络在全局信息捕捉方面的不足,但在可见光细节与红外热辐射的提取与融合方面仍存在挑战。这主要是由于在特征提取与融合过程中,局部与全局信息之间的交互不足,以及浅层像素级信息与深层语义信息之间的融合不够充分。为了解决这一问题,我们提出了一种新的基于Transformer的图像融合方法,该方法采用卷积-滑动窗口Transformer模块(CSTBs),其中卷积模块使用统一前馈卷积网络(UFCN),而Transformer模块则采用滑动窗口Transformer(SWT)。这种模块设计不仅能够增强局部与全局信息之间的交互能力,还能通过不同层次的特征融合,提升浅层像素级信息与深层语义表示之间的融合效果。

在图像融合过程中,我们特别关注了可见光图像的细节信息与红外图像的热辐射信息之间的有效整合。通过多信息交互机制,我们的方法能够在不同层次上实现对这些信息的融合,从而提升图像融合的整体性能。同时,我们设计的多组件损失函数能够有效引导融合过程,使得生成的融合图像在边沿纹理、结构特征和亮度信息方面得到加强。这种方法不仅提升了图像融合的质量,还为后续的视觉任务(如目标检测、医学诊断和光学成像)提供了更可靠的信息支持。

在实验方面,我们使用了两个公开的图像数据集,以及我们自行构建的Target_GDUT数据集。Target_GDUT数据集包含数百张航空目标图像,这些图像在复杂的背景环境下采集,如草地和昏暗天空等场景。数据集中,可见光图像面临目标被复杂背景淹没的问题,而红外图像则提供了目标的亮度信息,但缺乏背景纹理和目标结构的细节。因此,该数据集的图像融合具有重要意义,能够为后续的视觉任务提供更丰富的信息支持。通过在Target_GDUT数据集上的实验,我们验证了所提出方法的有效性,结果显示该方法在同时增强可见光细节与红外热辐射信息方面表现优越。

在实际应用中,我们的双模光学成像系统与图像融合方法在国防与安全领域具有广阔的应用前景。该系统能够克服传统可见光成像在低能见度环境下的局限性,同时结合红外成像的优势,提供更加全面的目标信息。在复杂环境下,如夜晚、雾天或尘土飞扬的环境,该系统能够确保目标的清晰识别,为安全监控、军事侦察和智能安防提供可靠的技术支持。此外,该方法在提升图像融合质量的同时,也能够增强图像的结构信息和纹理细节,从而为后续的视觉任务提供更加精准的数据输入。

为了进一步验证所提出方法的有效性,我们进行了系统的实验分析。实验结果表明,我们的方法在可见光与红外图像融合方面表现优于现有的多种方法。在可见光图像中,我们能够有效提取目标的边沿纹理和结构细节,而在红外图像中,我们能够准确捕捉目标的热辐射信息。通过多信息交互机制,我们的方法能够在不同层次上实现对这些信息的整合,从而提升图像融合的整体性能。同时,多组件损失函数的应用使得融合图像在亮度、结构和纹理信息方面得到显著增强,这不仅提高了目标识别的准确性,也增强了图像在复杂环境下的鲁棒性。

在研究过程中,我们不仅关注了图像融合技术本身,还对相关领域的研究进展进行了系统梳理。在可见光与红外图像融合方面,已有大量研究工作,包括基于传统方法的多尺度变换、稀疏表示和子空间分析,以及基于深度学习的自编码器网络、生成对抗网络和卷积神经网络等方法。然而,这些方法在处理复杂场景时仍存在一定的局限性,尤其是在局部与全局信息的交互方面。为了弥补这一不足,我们提出了一种新的基于Transformer的图像融合方法,该方法通过卷积-滑动窗口Transformer模块(CSTBs)实现了对局部与全局信息的高效交互与提取,同时通过不同层次的特征融合,增强了浅层像素级信息与深层语义表示之间的交互能力。

在实际应用中,我们的双模光学成像系统与图像融合方法不仅适用于航空目标识别,还能够推广至其他视觉任务。例如,在医学诊断中,红外成像能够提供组织的热分布信息,而可见光成像则能够捕捉组织的结构和颜色信息,通过融合这两种信息,可以更全面地分析病变区域。在智能安防领域,红外成像能够有效识别夜间或低光照条件下的目标,而可见光成像则能够提供目标的细节信息,通过融合这两种信息,可以提高目标识别的准确性与鲁棒性。因此,我们的方法不仅在航空目标识别中具有应用价值,还能够为其他视觉任务提供技术支撑。

此外,我们还对所提出方法的实现过程进行了详细说明。在图像融合过程中,我们首先对采集到的可见光与红外图像进行配准与对齐,以确保不同模态图像在空间位置上的一致性。随后,我们采用卷积-滑动窗口Transformer模块(CSTBs)进行特征提取与融合。其中,卷积模块负责提取可见光图像的局部特征,而Transformer模块则负责捕捉红外图像的全局特征。通过这种方式,我们的方法能够有效增强图像中局部与全局信息之间的交互能力,同时通过不同层次的特征融合,提升浅层像素级信息与深层语义表示之间的融合效果。最终,我们通过多组件损失函数对融合图像进行优化,以确保其在边沿纹理、结构特征和亮度信息方面得到显著增强。

在实验过程中,我们使用了两个公开的图像数据集,以及我们自行构建的Target_GDUT数据集。这些数据集的图像涵盖了不同的场景和光照条件,为验证所提出方法的有效性提供了全面的数据支持。通过在这些数据集上的实验,我们发现所提出方法在可见光与红外图像融合方面表现优于现有的多种方法。特别是在复杂背景环境下,我们的方法能够有效提取目标的细节信息,同时保留红外图像的热辐射特征,从而提升目标识别的准确性与鲁棒性。此外,我们的方法在处理不同层次的特征信息时表现出色,能够实现对浅层像素级信息与深层语义表示的高效融合。

在研究过程中,我们还对所提出方法的创新点进行了总结。首先,我们构建了一个双模光学成像系统,该系统能够同时采集可见光与红外图像信息,为后续的图像融合提供了高质量的数据基础。其次,我们提出了一种基于卷积-滑动窗口Transformer模块(CSTBs)的图像融合方法,该方法通过卷积与Transformer的协同作用,实现了对局部与全局信息的高效交互与提取。第三,我们设计了一种多组件损失函数,该损失函数结合了Sobel梯度算子、结构相似性指数测量和均方误差等指标,以增强融合图像在边沿纹理、结构特征和亮度信息方面的表达能力。通过这些创新点,我们的方法在可见光与红外图像融合方面表现优越,能够有效提升目标识别的准确性与鲁棒性。

在研究过程中,我们还对所提出方法的实现过程进行了详细说明。在图像融合阶段,我们首先对采集到的可见光与红外图像进行配准与对齐,以确保不同模态图像在空间位置上的一致性。随后,我们采用卷积-滑动窗口Transformer模块(CSTBs)进行特征提取与融合。其中,卷积模块负责提取可见光图像的局部特征,而Transformer模块则负责捕捉红外图像的全局特征。通过这种方式,我们的方法能够有效增强图像中局部与全局信息之间的交互能力,同时通过不同层次的特征融合,提升浅层像素级信息与深层语义表示之间的融合效果。最终,我们通过多组件损失函数对融合图像进行优化,以确保其在边沿纹理、结构特征和亮度信息方面得到显著增强。

在实验分析中,我们发现所提出方法在可见光与红外图像融合方面表现优于现有方法。特别是在复杂背景环境下,我们的方法能够有效提取目标的细节信息,同时保留红外图像的热辐射特征,从而提升目标识别的准确性与鲁棒性。此外,我们的方法在处理不同层次的特征信息时表现出色,能够实现对浅层像素级信息与深层语义表示的高效融合。通过这种方式,我们的方法不仅提升了图像融合的质量,还为后续的视觉任务提供了更可靠的信息支持。

在实际应用中,我们的双模光学成像系统与图像融合方法不仅适用于航空目标识别,还能够推广至其他视觉任务。例如,在医学诊断中,红外成像能够提供组织的热分布信息,而可见光成像则能够捕捉组织的结构和颜色信息,通过融合这两种信息,可以更全面地分析病变区域。在智能安防领域,红外成像能够有效识别夜间或低光照条件下的目标,而可见光成像则能够提供目标的细节信息,通过融合这两种信息,可以提高目标识别的准确性与鲁棒性。因此,我们的方法不仅在航空目标识别中具有应用价值,还能够为其他视觉任务提供技术支撑。

综上所述,我们的研究提出了一种基于卷积-滑动窗口Transformer模块(CSTBs)的图像融合方法,该方法能够有效解决可见光与红外图像融合中的局部与全局信息交互不足的问题。通过构建双模光学成像系统,我们实现了对可见光细节与红外热辐射信息的全面提取与融合,同时设计了多组件损失函数,以增强融合图像在边沿纹理、结构特征和亮度信息方面的表达能力。实验结果表明,我们的方法在可见光与红外图像融合方面表现优越,能够有效提升目标识别的准确性与鲁棒性。这些成果不仅在航空目标识别中具有应用价值,还能够为其他视觉任务提供技术支撑,为未来的研究提供了新的思路和方法。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号