评估类激活图的噪声鲁棒性:一个实现模型可靠可解释性的框架
《Image and Vision Computing》:Assessing the noise robustness of Class Activation Maps: A framework for reliable model interpretability
【字体:
大
中
小
】
时间:2025年09月19日
来源:Image and Vision Computing 4.2
编辑推荐:
提出显式语义对齐框架ESANet,通过SARM模块融合高维语义与中维空间细节,CFAM模块基于共享语义的窗口注意力对齐跨模态特征,SESM模块优化边缘一致性。实验表明ESANet在VT821/VT1000/VT5000数据集上显著优于21种SOTA方法,有效解决结构信息丢失和异常激活问题。
在当前的计算机视觉研究中,显著目标检测(Salient Object Detection, SOD)技术被广泛应用于图像和视频分析。SOD的目标是识别并分割图像或视频中最突出的区域或物体,这一任务对于许多下游应用,如目标跟踪、图像分割、人脸识别和视频分割等,具有重要的意义。为了提升SOD的性能,研究人员逐渐转向融合多种模态信息的方法,其中RGB-T(即可见光和热成像)数据的结合成为一种备受关注的解决方案。
RGB-T数据融合的优势在于,RGB图像能够提供丰富的颜色和纹理信息,而热成像则能够捕捉物体的温度变化,具有较强的光照鲁棒性。这种互补性使得RGB-T数据在低光照或复杂背景等具有挑战性的场景中表现更为出色。然而,现有的RGB-T显著目标检测方法主要依赖于神经网络的隐式跨模态特征对齐机制,虽然在一定程度上实现了特征的融合,但也存在一些关键问题,如显著目标结构信息的丢失以及不相关的激活响应的产生。
针对这些问题,研究团队提出了一种创新的显式语义对齐(Explicit Semantic Alignment, ESA)框架,并设计了名为ESANet的网络结构。该框架的核心思想是通过引入共享语义信息作为显式的对齐约束,从而实现更精确的跨模态特征对齐。具体而言,ESANet包含三个关键模块:显著性感知细化模块(Saliency-Aware Refinement Module, SARM)、跨模态特征对齐模块(Cross-Modal Feature Alignment Module, CFAM)和语义引导边缘锐化模块(Semantic-Guided Edge Sharpening Module, SESM)。这些模块协同工作,实现了从高层语义理解到细节提取的层次化优化。
SARM模块通过跨模态多头注意力机制,将高层语义特征与中层空间细节进行融合,从而生成细粒度的共享语义信息。这种融合方式不仅能够增强特征的表达能力,还能实现双向交互,使不同模态之间的信息能够相互补充和强化。CFAM模块则引入了基于窗口的注意力传播机制,利用共享语义信息作为对齐约束,确保RGB和热成像模态之间的特征一致性。这种机制在局部区域中能够更有效地对齐特征,避免全局优化策略可能带来的偏差。SESM模块通过双分支浅层特征对齐和权重自适应融合,进一步优化浅层跨模态特征分布的一致性,从而提升显著目标边缘的锐度和准确性。
与传统的隐式对齐方法相比,ESANet的显式对齐策略能够更直接地控制特征对齐的过程,从而有效减少由于模态特征不一致导致的结构信息丢失和不相关激活响应。现有的隐式对齐方法主要分为两种类型:基于卷积神经网络(CNN)的方法和基于Transformer的方法。基于CNN的方法通常采用特征重建或残差引导等策略,而基于Transformer的方法则依赖于跨注意力机制,如RGB作为查询,热成像作为键值对。然而,这些方法在对齐过程中往往忽略了语义层面的差异,导致跨模态特征对齐存在偏差。
此外,隐式对齐方法通常使用全局损失函数(如二元交叉熵损失)来优化整体任务性能,但这些损失函数可能会与局部对齐目标产生冲突,从而削弱对齐模块的有效性。例如,在某些场景中,全局优化可能会优先考虑整体的检测精度,而忽略了局部区域的特征一致性,这在一定程度上影响了显著目标的识别效果。相比之下,ESANet通过引入共享语义信息作为显式对齐约束,能够在全局和局部目标之间建立更合理的平衡,从而提升检测的整体性能。
在实验部分,研究团队对ESANet进行了广泛的评估,使用了三个主流的RGB-T显著目标检测数据集:VT821、VT1000和VT5000。这些数据集涵盖了不同场景和复杂度的图像对,其中VT821包含821对手动对齐的RGB-T图像,并加入了噪声以提高检测难度;VT1000由1000对图像组成,主要包含简单场景;VT5000则是一个大规模数据集,包含5000对高分辨率、多样性和低偏差的图像,适合评估模型的泛化能力。实验结果表明,ESANet在这些数据集上均显著优于现有的主流方法,验证了其在显著目标检测任务中的优越性能。
值得注意的是,ESANet不仅在RGB-T数据上表现出色,还被验证在RGB-D(即可见光和深度图像)数据上同样具有良好的适用性。RGB-D数据通常用于三维场景理解,而ESANet的跨模态对齐机制可以有效地处理这种数据,提升模型在不同模态间的适应能力。这种跨模态的通用性使得ESANet在实际应用中更具灵活性和扩展性。
在模型架构方面,ESANet采用两个独立的Res2Net50编码器分别提取RGB和热成像模态的特征。Res2Net50是一种改进的残差网络,通过引入多尺度的残差模块,能够更好地捕捉图像中的局部和全局信息。模型在不同层级提取的多尺度特征分别表示为 $ f^{r}_{i} $ 和 $ f^{t}_{i} $,其中 $ r $ 表示RGB模态,$ t $ 表示热成像模态,$ i $ 表示不同层级的特征。为了减少噪声对特征提取的影响,研究团队在模型设计中去除了第一层级的特征,即 $ f^{r}_{1} $ 和 $ f^{t}_{1} $,从而专注于更高层级的语义信息。
整个模型的训练和优化过程充分考虑了跨模态特征对齐的挑战。通过引入共享语义信息,ESANet能够在不同模态之间建立更紧密的联系,使得特征对齐更加精准和可靠。此外,模型在设计中也充分考虑了不同模态特征之间的空间差异,通过基于窗口的注意力传播机制,使得特征对齐能够更有效地在局部区域内进行,从而避免全局优化可能带来的偏差。
研究团队在实验中还发现,许多现有的RGB-T显著目标检测方法虽然在特征融合和整体性能优化方面做了大量工作,但在跨模态特征对齐方面仍存在不足。例如,在某些场景中,由于RGB和热成像模态之间的特征空间差异较大,现有的方法在融合过程中可能会削弱RGB模态的显著性特征,导致显著目标结构信息的丢失。此外,由于空间对齐不准确,一些方法在融合过程中反而放大了背景噪声,导致错误的激活响应和显著目标的误判。
为了解决这些问题,ESANet在设计中特别强调了跨模态特征对齐的显式引导。通过SARM模块生成细粒度的共享语义信息,CFAM模块利用这些信息进行更精确的特征对齐,而SESM模块则进一步优化边缘的锐度和一致性。这种层次化的对齐策略使得模型能够在不同层级上实现更有效的特征融合,从而提升显著目标检测的整体效果。
除了在RGB-T数据上的应用,ESANet还在RGB-D数据上进行了验证,证明了其在不同模态间的泛化能力。RGB-D数据通常用于三维场景重建和物体识别,而ESANet的跨模态对齐机制能够有效处理这种数据,提升模型在复杂三维场景中的表现。这种跨模态的通用性不仅拓宽了ESANet的应用范围,也为其在更多实际场景中的部署提供了可能性。
研究团队在论文中还强调了ESANet的创新性和实用性。ESANet的显式语义对齐框架不仅能够解决现有方法中存在的对齐偏差问题,还能够提升显著目标检测的准确性和鲁棒性。此外,该框架的设计理念具有较强的可扩展性,可以应用于其他跨模态任务,如多模态图像检索、视频动作识别等。因此,ESANet不仅为RGB-T显著目标检测提供了一种新的解决方案,也为跨模态学习领域的发展贡献了新的思路。
总的来说,ESANet的提出标志着在显著目标检测领域向更精确、更可靠的跨模态对齐方法迈进了一大步。通过引入显式的语义对齐机制,该模型能够在不同模态之间建立更紧密的联系,从而有效解决结构信息丢失和不相关激活响应的问题。实验结果表明,ESANet在多个数据集上的表现均优于现有方法,验证了其在显著目标检测任务中的优越性。此外,该模型的通用性和可扩展性也为其在其他跨模态任务中的应用提供了广阔的空间。未来,研究团队将继续优化ESANet的性能,并探索其在更多实际场景中的应用潜力。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号