显著对象检测(SOD)是计算机视觉中的一个基本但具有挑战性的任务,其目标是自动分割和识别图像中最显眼的区域或对象。早期的方法依赖于手工制作的特征和启发式先验,或者利用卷积神经网络(CNN)从单个RGB图像中推断显著性。然而,这些方法在涉及背景杂乱、遮挡或结构相似对象的复杂场景中往往表现不佳。实际上,在处理遮挡或多目标等复杂环境中的有效特征提取仍然是更广泛的计算机视觉任务(如姿态估计和行为分析)面临的共同挑战(Jia, Xu, Zhu, & Kuang, 2025),这需要强大的网络设计来缓解环境限制。
随着深度传感器和热成像设备的发展,多模态SOD受到了越来越多的关注。带深度的RGB(RGB-D)SOD引入了深度线索,以减少遮挡的歧义并增强结构理解。相反,带热红外的RGB(RGB-T)SOD利用热红外信息,在低光照甚至完全黑暗的环境中实现稳健的检测,在伪装检测等场景中具有明显优势。多模态信息的融合不仅扩展了传统基于RGB的SOD的能力,而且在需要可靠感知的应用中(包括自动驾驶和监控)也特别有益。
大多数现有的RGB-D显著对象检测方法通过使用各种注意力机制来探索跨模态特征的互补性。例如,Cong等人(2022)引入了一个渐进式注意力引导的集成单元,在编码器阶段充分整合了RGB-D特征表示。Chen, Shen, Ding, Deng, & Li(2024a)分离了跨通道的互补上下文和通道内的自注意力,从而实现了全面的全局推理,并同时改进了共享特征和特定于模态的特征表示。Fang, Jiang, Zhu, Shao, & Wang(2023)引入了一个嵌套的双重注意力模块,以明确利用RGB和深度流的组合特征。尽管这些方法通过注意力机制捕获了更抽象和丰富的语义信息,并推进了跨模态关系的建模,但它们往往忽略了基本特征的贡献,而这些特征本质上更加稳定且具有物理可解释性。这种忽略损害了模态交互的完整性,可能会限制复杂场景中显著性预测的整体效果。
在融合策略方面,许多研究致力于设计复杂的网络架构来直接整合RGB和深度特征。例如,Zhou等人(2022)通过从深度图渲染多个视图,将传统的RGB-D SOD扩展到多视图设置中,从而通过多视图融合实现更丰富的3D上下文聚合。Wu, Hao, Liang, & Xu(2024)提出了一个跨模态交互并行变换器模块,更好地捕捉了长距离的多模态交互,生成了更全面的融合特征。上述方法忽略了RGB和深度模态在融合过程中的贡献差异问题。为了解决这个问题,一些方法提出了自适应融合,通过加权控制动态调整不同模态的贡献。Zhang, Yao, Hu, Piao, & Ji(2022)提供了一个场景感知的动态融合模块,以实现两种模态之间的动态特征选择。Zong, Li, & Xu(2025)提出了一种通过像素采样和数据离散化生成深度伪标签的方法,旨在提高模型评估深度质量的能力,并动态调整高质量信息的权重。Wang, Guo, Chai, Mu, & Shao(2025b)提出了一个受认知启发的框架,利用动态特征融合模块来评估模态之间的语义相似性。该机制根据人类注意力和语义之间的相关性动态分配融合权重,确保特征的自适应整合。然而,这些方法仅关注模态之间的整体贡献差异,而没有讨论不同模态对不同局部特征的贡献。这使得它们在具有复杂背景和深度变化的复杂场景中效果较差。在这种情况下,深度在某些关键区域提供了精确的几何信息,而RGB在其他区域保留了更丰富的颜色和纹理细节。由于无法彻底分析每种模态在不同空间层次上的独特优势,现有方法通常会产生不平衡的全局模态权重分布和显著的局部细节损失,从而显著影响整体融合性能。此外,大多数现有方法依赖于自上而下的渐进式解码策略(Hu, Sun, Sun, Wang, & Li, 2024),这本质上将信息流限制在单一方向上,阻碍了特征的高级细化。这种单向传播限制了高级语义表示和低级空间细节之间的交互,最终降低了显著性预测的准确性和鲁棒性。
为了解决RGB-D SOD中发现的三个挑战,我们提出了一个新颖的显著对象检测框架,称为双阶段增强与粗细门控融合网络(DEGFNet),它包括三个关键模块:双阶段特征交互增强(DFIE)、粗细门控融合(CFGF)和双向信息流解码(BIFD)。其中,DFIE通过关注基本特征来克服纯基于注意力的增强的局限性。它从RGB中提取梯度线索,并从深度中提取几何信息,使用形态学运算符进行显式的边缘和结构建模,然后通过基于注意力的细化进行优化。这种组合平衡了稳定性和适应性:形态学提供了稳定、可解释的结构先验,而注意力增强了关键区域,提高了对复杂纹理和光照变化的鲁棒性。对于模态融合,CFGF模块引入了双分支门控融合架构。粗门控分支模型模态级的重要性,以解决RGB和深度之间的全局贡献不平衡问题,确保在整体尺度上的自适应加权。细门控分支生成空间自适应的掩码,用于像素级融合控制,增强了局部细节的整合。这些分支在不同粒度上相互补充,并通过残差连接进行细化,以产生高质量的融合表示。为了克服单向解码的局限性,提出了BIFD模块。它实现了自上而下的语义指导和自下而上的细节反馈,促进了高级语义和低级细节之间的有效交互。这种双向流动增强了层间的特征协作,从而实现了更准确和稳健的显著对象预测。DEGFNet在七个常见的RGB-D SOD基准测试中与16种最先进方法相比表现出了竞争力,并且在最近出现的具有挑战性的数据集上也与10种最先进方法有效竞争。本文的主要贡献总结如下:
- •
提出了DEGFNet,一种新型的RGB-D显著对象检测网络,克服了先前的局限性,如模态信息交换不足、融合僵化和单向解码。
- •
DFIE模块结合了形态学先验结构和基于注意力的区域增强,即使在复杂条件下也能确保跨模态信息的互补性。
- •
CFGF模块结合了粗门控进行全局权重自适应调整和细门控进行空间自适应的像素级融合,平衡了两种模态的全局贡献并增强了局部细节。
- •
BIFD模块通过双向解码促进了相邻层之间的有效交互,提供了自上而下的语义指导和自下而上的细节反馈。