MAMFusion：基于主辅助交叉注意力机制和目标掩码的红外与可见光图像融合技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：MAMFusion: Infrared and visible image fusion based on main and auxiliary cross-attention and target mask

【字体：大中小】 时间：2026年02月16日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　红外可见光图像融合通过跨模态注意力机制实现目标区域自适应融合与背景细节协同增强，提出TMGNet生成语义掩码指导特征提取，结合DCAM模块分离结构内容与纹理细节，采用主从跨注意力架构实现多分支特征融合，有效解决传统方法语义引导不足与信息丢失问题。

林淼|杨启民|任侃|陈倩

南京工业大学电子与光学工程学院，中国江苏省南京市210094

摘要

红外图像与可见光图像融合旨在将两种模态的独特特征整合到一个统一的表示中，从而增强人类的视觉感知能力，并促进检测和跟踪等高级视觉任务的实现。现有方法在恶劣条件下同时保留显著信息和背景纹理细节方面面临挑战。一个关键但尚未充分探索的问题是，在融合过程中缺乏明确的语义指导来优先处理感兴趣的区域（例如热目标），这对于实现鲁棒性能至关重要。为了解决这些问题，我们提出了MAMFusion，这是一种由目标掩码引导的主辅助交叉注意力融合网络。首先，我们构建了一个目标掩码生成网络（TMGNet），从源图像对中提取语义信息并生成用于特征融合的注意力引导掩码。其次，我们设计了一个基于通道注意力的特征提取模块，以全面捕捉结构内容和纹理细节，为融合提供丰富的特征表示。最重要的是，我们设计了一个主辅助交叉注意力融合架构。与现有的基于掩码的方法不同，我们的方法利用掩码内的目标信息来指导特定区域的融合。它采用主辅助交叉注意力机制，策略性地在不同图像区域和模态之间分配不同优先级的注意力，从而增强跨模态互补特征的提取和精细化。我们的核心创新在于从简单的基于掩码的加权或损失约束转变为跨模态的主次注意力方案。这一转变有效解决了传统基于掩码方法中的特征信息丢失问题。我们的代码可在以下链接获取：https://github.com/mlleolin/MAMFusion。

引言

由于成像设备的硬件限制，单模态图像处理存在固有的性能瓶颈[1]。例如，尽管可见光图像与人类视觉感知高度一致，具有高空间分辨率和详细的纹理，但它们在极端环境条件下特别容易退化[2]。为了解决这些挑战，图像融合技术已成为提升图像处理能力的重要方法[3]。红外图像在极端环境中表现出较强的鲁棒性，并能有效突出显著目标，因此红外图像与可见光图像融合成为融合领域的一个重要研究方向，因为它在复杂场景中具有巨大的应用价值。

传统的红外图像与可见光图像融合方法通常包括三个关键步骤：特征提取、特征融合和图像重建。最成熟的方法是多尺度变换[4]、[5]，它将源图像分解为不同尺度的特征，然后按尺度进行融合，最后通过逆变换重建最终结果。不同的方法采用不同的特征提取原理。例如，Vanmali等人[6]采用了基于权重图的拉普拉斯-高斯金字塔算法，而Xiang等人[7]提出了一种利用非下采样轮廓变换的方法。基于稀疏表示的方法[8]、[9]、[10]也获得了广泛关注，因为它们可以从高质量的自然图像中学习到具有最少原子数的过完备字典，从而实现对源图像的稀疏编码，以提高表示能力。基于子空间的方法[11]、[12]将图像投影到学习到的子空间中，使得原本无法区分的特征变得可分离，从而提高分类性能。尽管传统方法在简单场景中能够获得满意的融合结果，但在复杂环境中的性能会显著下降。

近年来，随着深度学习的快速发展，红外图像与可见光图像融合出现了新的机遇[13]、[14]。这些方法可以分为三类：基于卷积神经网络（CNN）的方法、基于生成对抗网络（GAN）的方法和基于自编码器（AE）的方法。2018年，Liu等人[15]首次将卷积神经网络应用于红外图像与可见光图像融合，取得了满意的结果。随后，在2019年，Ma等人提出了FusionGAN[16]，首次将对抗策略引入融合任务并取得了显著成果。大约在2020年，基于AE的融合方法如NestFuse[17]由Li等人开发。在后续研究中，基于这三种架构的方法构成了红外图像与可见光图像融合技术的主流。近年来，如何有效地将语义信息整合到融合网络中以提高性能已成为一个重要的研究问题。与来自对象检测或分割等任务的高级语义线索不同，后者通常需要额外的计算或神经网络处理才能间接融入融合流程，并且可能过于抽象而难以指导融合，目标掩码提供了空间精确且任务特定的指导，直接突出感兴趣的区域，使其成为这一方向的关键分支。当前的基于掩码的方法可以分为两种主要范式。第一种以SIGFusion[18]为代表，通过损失函数设计来整合语义信息以约束网络训练。然而，这种间接方法导致语义指导与前向特征融合路径之间的脱节，从而在推理过程中缺乏可操作的语义线索，限制了模型在不同条件下的泛化能力。第二种范式以SOSMaskFuse[19]等方法为代表，将掩码直接整合到融合网络中。虽然这种方法确保了推理过程中的语义指导，但这些方法通常依赖于基于掩码的简单硬选择机制。这种方案将红外特征和可见光特征视为互斥的，从而忽略了它们之间的内在互补性，可能导致由于掩码不准确而产生的错误传播。

为了解决上述问题，我们提出了MAMFusion，这是一种基于主辅助交叉注意力和目标掩码的融合网络。该网络通过TMGNet处理红外图像和可见光图像以提取特征并生成突出显著目标的二值掩码图。然后将源图像输入到自编码器中，其中包含深度通道注意力模块（DCAM）用于特征提取。提取的特征随后使用掩码进行处理，得到四个组成部分：红外目标、红外背景、可见光目标和可见光背景。这些分类特征通过我们设计的主辅助特征注意力机制（MA-Attention）进行融合。最后，融合特征被输入到解码器中以重建融合图像。我们提出的MAMFusion的主要贡献包括：

(1) 我们提出了一个目标掩码引导网络（TMGNet），它从红外图像和可见光图像中分割二值掩码，以识别包含显著目标信息的区域。这代表了从像素级融合向语义引导融合的重大转变，明确解决了固定融合机制无法适应不同图像区域中不同语义信息的限制。通过结合这些语义先验，我们的方法实现了针对不同图像区域的自适应融合策略，有效增强了图像融合与高级语义信息的整合。

(2) 我们开发了一个双通道注意力模块（DCAM），它在保持显著对象信息和精细纹理细节之间的最佳平衡的同时，捕捉复杂的轮廓细节。该模块显著提高了网络在极端环境条件下的鲁棒性，有效克服了传统方法在挑战性场景中常见的性能退化问题。DCAM提供的增强特征区分能力确保了在现有方法经常失败的情况下仍能保持可靠的性能。

(3) 我们设计了一种主辅助注意力（MA-Attention）融合策略，利用源图像和目标掩码将图像分类为目标区域和背景区域。对于这些不同的区域，使用多分支交叉注意力结构将可见光和红外信息指定为主成分和辅助成分。这种方法有效地解决了融合输出中区分不足的问题，提供了一种更智能且面向任务的融合范式，突出了目标的重要性，同时保留了与人类视觉感知一致的丰富可见信息。

本文的其余部分结构如下。第2节回顾了与我们的方法相关的工作。第3节全面描述了MAMFusion。第4节展示了实验结果并进行了分析。最后，第5节总结了研究。

方法

本节描述了所提出的融合框架MAMFusion。首先，我们在第3.1节介绍了框架的整体架构。随后，第3.2节详细介绍了TMGNet的架构。第3.3节提供了编码器-解码器具体结构的全面概述。第3.4节讨论了MA-Attention。最后，第3.5节阐明了该框架中使用的损失函数。

实验验证

在本节中，我们首先介绍实验配置。然后，我们详细讨论和分析比较实验及下游应用。

结论

本文提出了一种名为MAMFusion的目标掩码引导的主辅助交叉注意力融合网络。TMGNet旨在分析源图像的特征对，以准确定位目标区域并生成显著的物体掩码。编码器中的DCAM模块有助于全面提取内容和细节特征，从而防止关键显著信息的遗漏。这些优势共同使MAMFusion能够达到领先水平

CRediT作者贡献声明

林淼：写作 – 审稿与编辑，撰写原始草稿，可视化，验证，软件，方法论，调查，形式分析，数据整理，概念化。杨启民：写作 – 审稿与编辑，可视化，验证，软件，方法论，调查，形式分析，数据整理，概念化。任侃：写作 – 审稿与编辑，监督，资源管理，项目管理，概念化。陈倩：监督，资源管理，资金获取。

利益冲突声明

作者声明他们与本研究的内容没有利益冲突。

作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。

致谢

本研究部分得到了中国国家自然科学基金（项目编号62175111）、中央高校基本科研业务费（项目编号30922010715）和江苏省青兰计划的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究

相关工作

方法

实验验证

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行

新闻专题