双阶段增强与粗细门控融合技术在RGB-D显著目标检测中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Dual-Stage Enhancement and Coarse-Fine Gating Fusion for RGB-D Salient Object Detection

【字体：大中小】 时间：2026年02月10日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　RGB-D显著性检测通过双阶段特征增强与粗细门控融合机制，结合形态学操作与注意力机制优化跨模态交互，采用双向信息流解码提升复杂场景下的检测精度。

朱 Hegui | 天 Hongrui | 张 Ziyang

东北大学理学院，沈阳，110819，中国

摘要

RGB-深度显著对象检测（SOD）旨在通过整合RGB图像和深度图的互补信息来识别视觉上显著的物体。大多数现有方法采用编码-解码结构，但仍存在一些局限性，如跨模态交互不足、融合机制僵化以及特征传播方向单一。为了解决这些问题，我们提出了双阶段增强与粗细门控融合网络（DEGFNet），该网络建立了一个层次化的协作框架，连接了低级结构线索和高级语义表示。具体来说，双阶段特征交互增强（DFIE）模块将形态学操作与注意力机制相结合，从而增强了基本特征提取，并实现了跨模态的全面交互。粗细门控融合（CFGF）模块首先使用粗门控来确定全局权重和偏好，然后在像素级别使用细门控进行精细化处理，以确定每个像素对RGB或深度信息的依赖程度，从而实现更精确的融合。双向信息流解码（BIFD）模块促进了低级和高级特征之间的双向流动，结合了自上而下的语义指导和自下而上的细节反馈，提高了预测准确性。在七个RGB-D数据集以及一个最近出现的具有挑战性的RGB-D数据集上的广泛实验结果表明，DEGFNet的性能与现有的最先进RGB-D SOD方法具有很高的竞争力。

引言

显著对象检测（SOD）是计算机视觉中的一个基本但具有挑战性的任务，其目标是自动分割和识别图像中最显眼的区域或对象。早期的方法依赖于手工制作的特征和启发式先验，或者利用卷积神经网络（CNN）从单个RGB图像中推断显著性。然而，这些方法在涉及背景杂乱、遮挡或结构相似对象的复杂场景中往往表现不佳。实际上，在处理遮挡或多目标等复杂环境中的有效特征提取仍然是更广泛的计算机视觉任务（如姿态估计和行为分析）面临的共同挑战（Jia, Xu, Zhu, & Kuang, 2025），这需要强大的网络设计来缓解环境限制。

随着深度传感器和热成像设备的发展，多模态SOD受到了越来越多的关注。带深度的RGB（RGB-D）SOD引入了深度线索，以减少遮挡的歧义并增强结构理解。相反，带热红外的RGB（RGB-T）SOD利用热红外信息，在低光照甚至完全黑暗的环境中实现稳健的检测，在伪装检测等场景中具有明显优势。多模态信息的融合不仅扩展了传统基于RGB的SOD的能力，而且在需要可靠感知的应用中（包括自动驾驶和监控）也特别有益。

大多数现有的RGB-D显著对象检测方法通过使用各种注意力机制来探索跨模态特征的互补性。例如，Cong等人（2022）引入了一个渐进式注意力引导的集成单元，在编码器阶段充分整合了RGB-D特征表示。Chen, Shen, Ding, Deng, & Li（2024a）分离了跨通道的互补上下文和通道内的自注意力，从而实现了全面的全局推理，并同时改进了共享特征和特定于模态的特征表示。Fang, Jiang, Zhu, Shao, & Wang（2023）引入了一个嵌套的双重注意力模块，以明确利用RGB和深度流的组合特征。尽管这些方法通过注意力机制捕获了更抽象和丰富的语义信息，并推进了跨模态关系的建模，但它们往往忽略了基本特征的贡献，而这些特征本质上更加稳定且具有物理可解释性。这种忽略损害了模态交互的完整性，可能会限制复杂场景中显著性预测的整体效果。

在融合策略方面，许多研究致力于设计复杂的网络架构来直接整合RGB和深度特征。例如，Zhou等人（2022）通过从深度图渲染多个视图，将传统的RGB-D SOD扩展到多视图设置中，从而通过多视图融合实现更丰富的3D上下文聚合。Wu, Hao, Liang, & Xu（2024）提出了一个跨模态交互并行变换器模块，更好地捕捉了长距离的多模态交互，生成了更全面的融合特征。上述方法忽略了RGB和深度模态在融合过程中的贡献差异问题。为了解决这个问题，一些方法提出了自适应融合，通过加权控制动态调整不同模态的贡献。Zhang, Yao, Hu, Piao, & Ji（2022）提供了一个场景感知的动态融合模块，以实现两种模态之间的动态特征选择。Zong, Li, & Xu（2025）提出了一种通过像素采样和数据离散化生成深度伪标签的方法，旨在提高模型评估深度质量的能力，并动态调整高质量信息的权重。Wang, Guo, Chai, Mu, & Shao（2025b）提出了一个受认知启发的框架，利用动态特征融合模块来评估模态之间的语义相似性。该机制根据人类注意力和语义之间的相关性动态分配融合权重，确保特征的自适应整合。然而，这些方法仅关注模态之间的整体贡献差异，而没有讨论不同模态对不同局部特征的贡献。这使得它们在具有复杂背景和深度变化的复杂场景中效果较差。在这种情况下，深度在某些关键区域提供了精确的几何信息，而RGB在其他区域保留了更丰富的颜色和纹理细节。由于无法彻底分析每种模态在不同空间层次上的独特优势，现有方法通常会产生不平衡的全局模态权重分布和显著的局部细节损失，从而显著影响整体融合性能。此外，大多数现有方法依赖于自上而下的渐进式解码策略（Hu, Sun, Sun, Wang, & Li, 2024），这本质上将信息流限制在单一方向上，阻碍了特征的高级细化。这种单向传播限制了高级语义表示和低级空间细节之间的交互，最终降低了显著性预测的准确性和鲁棒性。

为了解决RGB-D SOD中发现的三个挑战，我们提出了一个新颖的显著对象检测框架，称为双阶段增强与粗细门控融合网络（DEGFNet），它包括三个关键模块：双阶段特征交互增强（DFIE）、粗细门控融合（CFGF）和双向信息流解码（BIFD）。其中，DFIE通过关注基本特征来克服纯基于注意力的增强的局限性。它从RGB中提取梯度线索，并从深度中提取几何信息，使用形态学运算符进行显式的边缘和结构建模，然后通过基于注意力的细化进行优化。这种组合平衡了稳定性和适应性：形态学提供了稳定、可解释的结构先验，而注意力增强了关键区域，提高了对复杂纹理和光照变化的鲁棒性。对于模态融合，CFGF模块引入了双分支门控融合架构。粗门控分支模型模态级的重要性，以解决RGB和深度之间的全局贡献不平衡问题，确保在整体尺度上的自适应加权。细门控分支生成空间自适应的掩码，用于像素级融合控制，增强了局部细节的整合。这些分支在不同粒度上相互补充，并通过残差连接进行细化，以产生高质量的融合表示。为了克服单向解码的局限性，提出了BIFD模块。它实现了自上而下的语义指导和自下而上的细节反馈，促进了高级语义和低级细节之间的有效交互。这种双向流动增强了层间的特征协作，从而实现了更准确和稳健的显著对象预测。DEGFNet在七个常见的RGB-D SOD基准测试中与16种最先进方法相比表现出了竞争力，并且在最近出现的具有挑战性的数据集上也与10种最先进方法有效竞争。本文的主要贡献总结如下：

•
提出了DEGFNet，一种新型的RGB-D显著对象检测网络，克服了先前的局限性，如模态信息交换不足、融合僵化和单向解码。
•
DFIE模块结合了形态学先验结构和基于注意力的区域增强，即使在复杂条件下也能确保跨模态信息的互补性。
•
CFGF模块结合了粗门控进行全局权重自适应调整和细门控进行空间自适应的像素级融合，平衡了两种模态的全局贡献并增强了局部细节。
•
BIFD模块通过双向解码促进了相邻层之间的有效交互，提供了自上而下的语义指导和自下而上的细节反馈。

整体框架

所提出的DEGFNet在图1中进行了说明，它采用了标准的编码器-解码器架构。编码器使用SMT Lin等人（2023）的方法从RGB图像中提取多级特征（

F_{i}

（

i = 1, \dots\dots, 4

），该方法适用于复杂的RGB线索，因为它具有尺度感知的调制能力。同时，它利用MobileNetV2（Sandler等人，2018）从深度图像中提取多级特征（

i = 1, \dots\dots, 4

），受益于MobileNetV2的轻量化和高效设计，适用于简单的深度信息。

数据集

DEGFNet在七个主流基准数据集上进行了评估，包括NLPR（Peng, Li, Xiong, Hu, & Ji, 2014）、NJU2K（Ju, Ge, Geng, Ren, & Wu, 2014）、LFSD（Li, Ye, Ji, Ling, & Yu, 2014）、DUT-RGBD（Piao, Ji, Li, Zhang, & Lu, 2019）、DES（Cheng, Fu, Wei, Xiao, & Cao, 2014）、STERE（Niu, Geng, Li, & Liu, 2012）和SIP（Fan, Lin, Zhang, Zhu, & Cheng, 2020）。根据Hu等人（2024）的分割原则，构建了一个包含2,985对图像的训练集，其余图像来自

结论

本文通过提出层次化的协作架构DEGFNet，解决了RGB-D SOD的局限性，包括浅层跨模态交互、融合僵化和单向信息流。具体来说，DFIE模块通过“形态学+注意力”的双阶段增强实现了全面的RGB-D交互。CFGF模块通过全局主要门控进行全局-局部加权融合，然后进行像素级的二次门控。BIFD模块实现了

CRediT作者贡献声明

朱 Hegui：概念化、方法论、监督、撰写——审阅与编辑、资源。 天 Hongrui：方法论、撰写——原始草稿、数据管理、可视化。 张 Ziyang：调查、软件、数据管理。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系，这些关系可能会影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作