基于尺度感知表征学习的红外与可见光图像融合方法SARLFuse研究

【字体: 时间:2025年06月26日 来源:Displays 3.7

编辑推荐:

  针对多模态图像融合中全局依赖与局部特征利用不足、模态差异处理欠佳等问题,研究人员提出尺度感知表征网络SARLFuse,通过SARM模块提取多尺度特征,结合FCFM(交叉注意力)和DEFM双模块策略优化模态互补性与细节增强。实验验证其在公共数据集上超越主流方法,并提升语义分割性能,为复杂场景信息整合提供新思路。

  

在复杂场景感知领域,红外与可见光图像的融合技术至关重要。红外传感器能捕捉物体的热辐射特征,而可见光传感器则擅长记录纹理细节,两者结合可显著提升目标检测、语义分割等高级视觉任务的性能。然而,现有融合方法面临三大瓶颈:一是卷积神经网络(CNN)难以兼顾全局语义与局部细节,Transformer虽弥补了全局建模能力却易丢失局部信息;二是多数方法仅依赖深层特征,忽视中间层的空间细节;三是简单的特征拼接或求和操作无法有效协调模态差异,导致融合图像出现边缘伪影。

为解决这些问题,中国的研究团队提出了一种名为SARLFuse的创新框架。该研究发表于《Displays》,其核心是通过尺度感知表征模块(SARM)整合多尺度卷积与Transformer,同步提取局部特征和全局上下文信息。针对模态差异,团队设计了双模块融合策略:特征互补融合模块(FCFM)利用交叉注意力强化模态间互补性,细节增强融合模块(DEFM)则通过残差学习平衡域差异。实验表明,SARLFuse在三个公共数据集上均优于11种主流方法,且能显著提升下游语义分割任务的精度。

关键技术方法
研究采用多尺度特征提取策略,通过1×1卷积将输入图像映射至高维空间,经SARM模块分三尺度(通道数48/92/196)处理。FCFM模块通过交叉注意力机制交互红外与可见光特征,DEFM则采用残差结构细化融合特征。模型训练使用公开数据集,并通过定量指标(如互信息、结构相似性)与视觉对比验证效果。

研究结果

  1. 多尺度特征提取:SARM模块通过并行卷积路径(3×3/5×5/7×7)与Transformer分支,显著提升模型对纹理和热辐射特征的捕获能力。
  2. 模态互补性优化:FCFM模块的交叉注意力机制使红外图像的显著性特征与可见光纹理细节在特征空间高效互补,互信息值提升12.7%。
  3. 域差异抑制:DEFM模块通过层级特征校准减少模态间差异,在边缘区域伪影抑制效果优于GAN-based方法。
  4. 下游任务验证:融合图像应用于语义分割任务时,平均交并比(mIoU)提高3.2%,证明其在高阶视觉任务中的实用性。

结论与意义
SARLFuse通过尺度感知表征与双模块融合策略,首次在统一框架内解决了多尺度特征利用不足、模态差异协调困难等关键问题。其创新性体现在:SARM模块突破传统CNN-Transformer的局限性;FCFM与DEFM的协同设计为多模态融合提供了可扩展的范式。该研究不仅推动了图像融合技术的发展,还为自动驾驶、夜间监控等实际应用提供了更鲁棒的视觉数据支持。未来工作可进一步探索动态尺度调整与轻量化部署,以适配更多实时场景。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号