显式语义对齐网络(ESANet):基于分层跨模态融合的RGB-T显著目标检测新方法

【字体: 时间:2025年09月20日 来源:Image and Vision Computing 4.2

编辑推荐:

  本刊推荐一篇在RGB-T显著目标检测(SOD)领域具有突破性意义的研究。作者团队创新性地提出了显式语义对齐框架(ESA),通过设计三个核心模块——显著性感知细化模块(SARM)、跨模态特征对齐模块(CFAM)和语义引导边缘锐化模块(SESM),实现了从高层语义到细节特征的分层精准对齐。该方法有效解决了传统隐式对齐导致的结构信息丢失与误激活问题,在三个公开数据集上显著优于现有21种最先进模型。

  

亮点

现有RGB-T显著目标检测方法主要依赖神经网络学习机制进行隐式跨模态特征对齐,但这种方法存在两个根本性局限:首先容易导致显著目标结构信息丢失,其次可能产生与目标无关的异常激活响应。为解决这些问题,我们提出创新性的显式语义对齐(ESA)框架,并设计了基于分层跨模态融合的显式语义对齐网络(ESANet)。

引言

显著目标检测(SOD)旨在识别图像或视频中最突出的区域或对象。该算法模拟人类视觉机制,为下游计算机视觉任务提供重要先验信息,如目标跟踪、图像分割、人脸识别和视频分割。

虽然现有RGB SOD方法取得显著进展,但其在低光照和前背景相似等挑战性场景中性能下降。为应对这些限制,融合深度图像和热成像(T)互补数据源的多模态显著目标检测框架成为有前景的解决方案。深度图像能提供空间结构和3D位置线索,但易受传感器噪声和光敏感性影响。相比之下,热成像能够捕获物体的温度变化并提供具有光照鲁棒性的信息,可有效补偿RGB图像在低光照条件下的不足。这种协同效应推动了RGB-T SOD研究的显著进展。

当前RGB-T SOD可分为两类:传统方法和深度学习方法。传统方法主要采用排序机制、图学习或支持向量机,而深度学习方法侧重于多模态特征融合以提高检测精度。关键挑战在于如何协调对齐RGB和热模态固有的异构特征分布和语义表示。现有RGB-T SOD方法主要采用隐式对齐策略,这些策略面临两个根本性限制:

(1)方法仅在同一层级内对齐特征,忽略相同深度的语义失配。这导致热交叉场景中的对齐偏差(图1第1行),其中背景噪声污染显著图。

(2)全局损失(如BCE)侧重于优化整体任务性能,可能与对齐模块的局部目标(如模态语义一致性和细节保持)冲突,导致对齐模块有效性减弱。

值得注意的是,最近的方法如CCFENet、MCFNet和LAFB试图通过跨模态协作、全局-局部联合优化和动态自适应融合等策略改进特征融合。然而这些方法仍主要依赖隐式神经网络学习进行特征对齐,难以从根本上缓解对齐偏差。如图1所示,这种隐式方法常因对齐精度不足而导致结构缺失或产生错误响应。在第一行中,RGB图像能清晰区分显著目标与背景,而热图像呈现多个热交叉实例。尽管现有方法专注于互补融合策略和整体性能优化,但缺乏对跨模态特征对齐的深入考虑,导致RGB模态的独特特征在融合过程中被削弱,最终造成对象结构信息丢失。在第二行中,RGB图像包含背景噪声,而热图像呈现更清晰的图像质量。但由于模态特征的空间失配,现有方法在融合过程中反而放大了背景噪声,产生错误响应并将非显著区域误判为对象。在最后两行中,尽管RGB和热图像都能提供完整的对象区域和边界信息,现有方法仍存在对象结构缺失或错误响应问题,这进一步证明了跨模态特征对齐机制的不足。

为应对这些挑战,我们提出用于RGB-T显著目标检测的显式语义对齐网络(ESANet)。ESANet引入共享语义信息作为显式对齐约束,具有双重优势:

(1)提供统一语义参考以减轻跨模态偏差

(2)解决局部对齐与全局优化间的冲突

三个协调模块实现分层优化:

具体而言,显著性感知细化模块(SARM)通过跨模态多头注意力融合高层语义和中级空间细节,生成细粒度共享语义。其次,跨模态特征对齐模块(CFAM)使用共享语义引导的局部窗口注意力对齐高层RGB-热特征,确保跨模态一致性。此外,语义引导边缘锐化模块(SESM)通过双分支浅层特征对齐和权重自适应融合增强边缘精度。

架构概述

我们模型的整体架构如图2所示。采用两个独立的Res2Net50骨干网络作为编码器,分别从RGB和热模态提取特征。编码器提取的多尺度特征表示为fir和fit,其中r代表RGB模态,t代表热模态,i表示不同层级特征。为减少噪声影响,我们舍弃第一层级特征f1r和f1t。受ResNeXt启发,我们...

数据集

我们在三个广泛使用的RGB-T SOD数据集上评估方法。VT821包含821对手动对齐的RGB-T图像,其中添加噪声以增加难度。VT1000包含1000对场景简单的图像。VT5000是包含5000对高分辨率、多样化且低偏差图像的大规模数据集,适用于评估模型的泛化能力。这些数据集共同推进了RGB-T SOD研究,并提供全面的实验...

结论

本研究提出了一种用于RGB-T显著目标检测的新型语义引导特征对齐框架,称为基于分层跨模态融合的显式语义对齐网络(ESANet),以解决隐式跨模态对齐方法的局限性。与传统仅依赖基于神经网络的隐式对齐方法不同(这些方法常遭受结构信息丢失和假阳性激活问题),我们引入显式语义对齐(ESA)框架,通过共享语义指导实现精准的跨模态特征对齐。具体而言,我们设计三个关键模块:SARM通过跨模态多头注意力机制生成细粒度共享语义;CFAM通过基于窗口的注意力传播机制增强跨模态场景理解一致性;SESM通过权重增强策略优化浅层特征分布一致性。在三个RGB-T数据集上的综合实验表明,ESANet在客观指标和视觉对比方面均显著优于21种最先进方法。此外,在RGB-D SOD任务上的实验进一步证明了我们方法的有效性和通用性。未来工作将探索更高效的跨模态交互机制,并将框架扩展到其他多模态视觉任务。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号