LACT-Fusion：基于线性注意力引导的跨模态学习方法，用于红外图像与可见光图像的融合

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：LACT-Fusion: Linear Attention-Guided Cross-Modal Learning for Infrared and Visible Image Fusion

【字体：大中小】 时间：2026年02月11日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　多模态图像融合中提出LACT-Fusion框架，采用线性注意力机制替代传统自注意力降低计算复杂度，同时设计局部注意力增强模块提升细粒度特征表达，通过辅助矩阵优化跨模态交互，实验验证其性能优于现有方法。

赵才|马勇|彭琦|李伟中|王戈|黄军|范凡|王倩

湖北工程学院物理与电子信息工程学院，中国孝感市，432000

摘要

红外图像与可见光图像融合旨在从两种模态中提取内在特征，并生成保留互补信息的高质量图像。尽管基于Transformer的图像融合方法在建模全局依赖性方面取得了成功，但它们本质上缺乏局部归纳偏见，这通常会导致融合图像中细节信息的丢失。此外，跨模态的自适应交互仍然不够理想，限制了融合过程中特定模态信息的保留。为了解决这些问题，我们提出了一种基于Transformer的新型融合框架LACT-Fusion。具体来说，我们开发了一个带有辅助矩阵的线性注意力模块来替代传统的自注意力机制，有效降低了计算复杂度，同时提高了对不同模态互补特征的自适应建模能力。此外，我们还设计了一个基于局部注意力的多尺度特征增强块（LFEB），以增强图像的纹理和结构表现，从而提高融合图像的清晰度和保真度。在多个公开数据集上的广泛实验表明，LACT-Fusion在定量指标和定性评估中均显著优于现有方法，证实了其卓越的融合性能和在实际应用中的巨大潜力。源代码将发布在 https://github.com/zc617/LACTFusion。

引言

来自不同模态的图像通常包含不同且互补的场景信息。例如，红外图像主要捕捉环境中的温度变化，而可见光图像则记录物体反射的光线[1]。仅依赖单一模态往往无法提供场景的全面表示。因此，红外图像与可见光图像的融合可以生成结合了两种模态互补信息的新图像。由于这些图像的联合特性，融合图像已被广泛应用于各种领域，包括目标识别[2]、跟踪[3]和图像分割[4]。

传统的图像融合方法通常依赖于预定义的数学变换来建模源图像的特征，然后通过手动设计的融合规则生成融合图像。典型的方法包括基于多尺度变换的方法[5]、基于稀疏表示的方法[6]、基于显著性的方法[7]等。尽管这些技术在某些任务中可以取得令人满意的结果，但它们对手工制作的变换和融合规则的依赖性使得难以泛化到多样化和复杂的应用场景。此外，所涉及的数学变换往往会导致较高的计算复杂度，进一步限制了它们的效率并限制了在现实世界中的适用性[1]。

近年来，图像融合已经从传统的规则驱动方法转向了数据驱动方法。深度学习技术被引入这一领域，使得通过在大规模数据集上训练自动学习不同模态的信息特征成为可能，并能够自适应地优化融合过程。现有的基于深度学习的融合方法大致可以分为三类：基于自编码器和卷积神经网络（AE/CNN）的方法[8]、[9]、基于生成对抗网络（GAN）的方法[2]、[10]以及基于Transformer的方法[11]、[12]。其中，AE/CNN和GAN方法通常依赖卷积操作来提取图像特征，这限制了捕捉特征间全局依赖性的能力，从而阻碍了融合性能的进一步提升。相比之下，基于Transformer的融合网络利用自注意力机制来建模特征间的全局依赖性，显著提高了融合质量，并吸引了越来越多的关注。然而，纯自注意力结构缺乏归纳偏见，往往导致融合图像中细节信息的保留不足。此外，大多数现有的基于Transformer的融合方法缺乏专门的跨模态学习机制，模态间的交互仍然不够理想，阻碍了真正自适应和全面的融合实现[1]。

为了解决这些限制，我们提出了一种名为LACT-Fusion的新型融合方法，该方法利用线性注意力机制实现高效且有效的多模态集成。我们的方法采用了一种结合CNN和Transformer的混合架构。具体来说，我们设计了一个基于局部注意力的多尺度特征增强块，该块整合了边缘信息、多尺度特征和细节感知注意力。该块增强了局部结构和纹理的表示能力，使得细粒度细节和全局结构模式的联合建模成为可能。此外，为了建模每种模态内的全局依赖性并实现自适应的跨模态交互，我们提出了一种带有辅助矩阵的线性注意力机制，替代了传统的自注意力机制。这种机制能够自适应地计算跨模态注意力权重，从而显著提高了融合过程的效率和灵活性。本工作的贡献如下：

•

我们提出了一种新型的图像融合框架LACT-Fusion，它在基于Transformer的架构中融入了线性注意力机制。

•

我们引入了一个基于局部注意力的细粒度特征增强块（LFEB），该块同时建模纹理细节和结构信息，从而提高了融合图像的清晰度和结构保真度。

•

我们设计了一种带有辅助矩阵的线性注意力机制，它在保留标准自注意力全局建模能力的同时，将计算复杂度降低到了线性级别。

•

我们开发了一种由线性注意力驱动的跨模态学习策略，实现了不同模态互补信息的更自适应和有效的集成。

章节片段

基于深度学习的图像融合方法

随着大规模数据集的可用性，数据驱动的深度学习方法在红外图像与可见光图像融合方面展现了出色的性能。基于AE/CNN的图像融合方法采用卷积操作作为核心架构，并通过精心设计的损失函数来指导网络优化，从而生成高质量的融合图像[9]。为了有效地从多模态图像中提取关键特征，研究人员采用了先进的架构设计

方法

本节首先介绍了LACT-Fusion的总体框架和处理流程，随后详细描述了所提出的线性注意力机制，并全面解释了该方法中采用的跨模态交互策略。

实验

本节描述了所提出网络的训练设置和实现细节。进行了全面的实验来评估其融合性能，评估其对下游视觉任务的影响，并进行了消融研究以验证每个组件的有效性。

结论

为了克服现有基于Transformer的红外图像与可见光图像融合方法的局限性，如图像细节的丢失以及无法自适应地建模两种模态的内在特征，本文提出了一种新型融合框架LACT-Fusion。我们的方法引入了一种由所提出的线性注意力机制指导的跨模态学习策略，与现有方法相比，实现了更高效和有效的特征融合。为了进一步改进

CRediT作者贡献声明

赵才：撰写 – 审稿与编辑，撰写 – 原始草稿，软件开发，方法论设计。马勇：资金筹集。彭琦：资源协调。李伟中：实验研究。王戈：软件开发。黄军：监督指导。范凡：形式化分析。王倩：实验协助。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本研究得到了国家自然科学基金（项目编号：62473297、62475199和U23B2050）的支持

热点排行

新闻专题

联系信箱：

粤ICP备09063491号