《Pattern Recognition》:Cross-Modality Masked Autoencoder for Infrared and Visible Image Fusion
编辑推荐:
图像融合方法CMMAEFuse通过跨模态掩码自编码器提取鲁棒特征并实现信息交互,结合双维度Transformer捕获空间和通道全局依赖,有效提升目标突出度和纹理细节,实验验证其优于现有方法并增强下游任务性能。
Cong Bi|Wenhua Qian|Qiuhan Shao|Jinde Cao|Xue Wang|Kaixiang Yan
云南大学信息科学与工程学院,昆明,650091,中国
摘要
红外图像与可见光图像融合的目标是合成一幅包含显著目标和丰富纹理细节的融合图像。有效提取和整合跨模态信息仍然是一个主要挑战。在本文中,我们提出了一种基于跨模态掩码自编码器(CMMAE)的图像融合方法,称为CMMAEFuse。首先,我们训练CMMAE,该方法利用一种模态的信息通过跨模态特征交互模块来补充另一种模态的信息,从而有效增强编码器提取互补信息的能力。随后,我们设计了一个二维Transformer(DDT)来融合编码器提取的深度特征以重建融合图像。DDT能够捕捉空间维度和通道维度之间的全局交互,并通过空间交互模块和通道交互模块在两个维度之间交换信息,以实现不同维度之间的特征聚合,从而增强互补信息并减少冗余信息。大量实验表明,CMMAEFuse优于现有的最先进方法。此外,对象检测的应用也表明CMMAEFuse提高了下游任务的性能。
引言
图像融合旨在从不同的源图像中提取有用信息,以生成更完整地描述成像场景的融合图像。红外图像与可见光图像融合(IVIF)是最广泛使用的多模态图像融合技术之一。具体来说,可见光图像包含丰富的纹理细节,但存在对比度低、遮挡等问题。红外图像可以捕捉物体的热辐射特征,但存在分辨率低、模糊等问题。IVIF整合了不同模态的互补信息,以重建具有显著目标和纹理细节的图像,从而提高跟踪[1]、语义分割[2]和对象检测[3]等下游任务的性能。
最近,基于深度学习的图像融合方法取得了有希望的结果。基于自编码器(AE)的方法[4]、[5]、[6]首先使用编码器提取特征,然后根据特定的融合策略融合特征,最后使用解码器重建融合图像。然而,融合性能取决于手工设计的融合策略。由于缺乏参考图像,一些方法[7]、[8]、[9]采用生成对抗网络(GAN)来增强融合图像的纹理细节,但可能会引入不自然的伪影。基于卷积神经网络(CNN)的方法[10]、[11]、[12]通过使用更精细的模块设计和损失函数来提高融合性能。然而,以CNN为基础组件的方法在捕捉全局信息方面存在困难。因此,研究人员将Transformer引入到多模态图像融合中[13]、[14]、[16]。这些方法使用自注意力来捕捉长距离依赖性,但往往忽略了不同模态之间的交互。
尽管基于AE的方法可以合成相对令人满意的结果,但仍有一些问题需要解决。首先,基于AE的方法主要使用两种形式的编码器:两种模态共享一个编码器,或者每种模态都有一个独立的编码器[4]、[5]、[6]。共享的编码器无法区分特定于模态的特征,而独立的编码器不允许跨模态特征交互[15]、[17]。其次,现有方法通常仅通过自注意力在空间域捕捉全局交互,而忽略了通道上下文,导致无法利用全局图像信息[15]、[18]。此外,基于AE的方法依赖于复杂的融合策略,这可能导致显著目标的弱化和纹理细节的丢失[5]、[19]。
为了克服现有方法的局限性,本文提出了一种基于跨模态掩码自编码器(CMMAE)的IVIF方法,称为CMMAEFuse。首先,为了更好地从每种模态中提取互补信息,我们设计了CMMAE。具体来说,我们在双分支编码器的每个自注意力层中随机掩码特征,以提取鲁棒的特征并提高泛化性能。同时,双分支编码器通过跨模态特征交互模块(CMFIM)实现跨模态的互补信息交换。然后,使用Swin Transformer构建的轻量级解码器从掩码特征中重建源图像。其次,我们设计了一个二维Transformer(DDT),它分别捕捉空间维度和通道维度中的长距离依赖性,并通过空间交互模块(SIM)和通道交互模块(CIM)在两个分支之间共享信息,以实现特征聚合并完全整合互补信息。我们使用DDT直接融合编码器提取的特征,生成融合图像,而不依赖于手工设计的融合策略。
1.我们提出了一种跨模态掩码自编码器,它利用一种模态的信息来补充另一种模态的信息,从而实现跨模态的互补信息交换,并促进从不同模态中更全面地提取互补信息。
2.我们提出了一种二维Transformer,用于捕捉空间和通道维度之间的全局依赖性,跨维度聚合特征以增强互补信息并减少冗余。
3.大量实验表明,CMMAEFuse在保持显著性和纹理保真度方面优于现有的最先进方法。
相关工作
相关工作
在本节中,我们首先介绍基于AE、CNN、GAN和Transformer的方法。然后简要介绍基于掩码自编码器的视觉任务。
方法
在本节中,我们描述了CMMAEFuse的架构及其相关的损失函数。
实验
在本节中,我们首先详细介绍了实验设置。随后,我们分析了相关实验。
结论
在本文中,我们提出了一种基于CMMAE的IVIF方法,即CMMAEFuse。具体来说,为了充分提取互补信息,我们提出了一种跨模态掩码自编码器,该编码器利用一种模态的信息来补充另一种模态的信息,以实现跨模态的互补信息交换。为了高效融合互补信息,我们提出了一种二维Transformer,它捕捉空间和通道维度之间的全局交互,以融合互补信息
CRediT作者贡献声明
Cong Bi:撰写 – 审稿与编辑,撰写 – 原稿,可视化,方法论。Wenhua Qian:撰写 – 审稿与编辑,监督,资金获取。Qiuhan Shao:撰写 – 审稿与编辑,可视化。Jinde Cao:撰写 – 审稿与编辑。Xue Wang:撰写 – 审稿与编辑,可视化,调查。Kaixiang Yan:可视化,调查。
利益冲突声明
作者没有与本文内容相关的利益冲突需要声明。
致谢
本工作得到了中国国家自然科学基金(项目编号62162065)、云南省联合专项项目研究基金(项目编号202401BF070001-023)、云南省视觉与文化创新团队(项目编号202505AS350009)、云南省教育厅科研基金以及云南大学研究生研究与创新基金(项目编号KC-252511697)和云南省教育厅科研项目(项目编号2025Y0098)的支持。