编辑推荐:
当前显著目标检测(SOD)方法在计算效率与性能平衡、特征捕捉等方面存在不足。研究人员开展了基于金字塔视觉 Transformer 骨干网络的 SOD 网络研究,提出 TRSNet。该网络超越 26 种 SOTA 方法且架构轻量,为资源受限平台部署提供可能。
在计算机视觉领域,显著目标检测(Salient Object Detection,SOD)如同为机器赋予了一双 “慧眼”,让其能够快速定位并分割出图像中最引人注目的物体。这一技术在众多应用场景中都有着至关重要的作用,比如在视觉跟踪里,帮助追踪目标物体;在图像检索和编辑中,精准定位用户想要处理的区域;在视频或图像分割时,准确划分不同的物体部分 。
然而,目前的 SOD 方法却面临着诸多挑战。一方面,先进的方法难以在计算效率和性能之间找到完美的平衡。深度卷积神经网络(Convolutional Neural Networks,CNNs)虽然在提取局部特征方面表现出色,架构也较为轻量,但它就像一个 “近视眼”,在理解图像的全局上下文信息时存在困难。例如,在复杂的场景图像中,当需要判断物体之间的关系时,CNNs 往往会出现失误。另一方面,Transformer 虽然擅长捕捉全局上下文,但它对资源的需求极大,这使得其在一些资源受限的平台上难以施展拳脚。此外,现有的方法在特征提取、上下文建模以及多尺度特征融合等方面也存在不足,导致在检测复杂场景中的显著目标时效果不佳。
为了解决这些难题,来自国外的研究人员开展了一项关于新型 SOD 网络的研究。他们提出了基于金字塔视觉 Transformer(Pyramid Vision Transformer,PVTv2)辅助的梯形注意力网络(Trapezoidal Attention Network,TRSNet)用于精确的 SOD。研究结果令人瞩目,该网络在六个基准 SOD 数据集上进行测试,超越了超过 26 种当前最先进(State-of-the-art,SOTA)的 SOD 方法,同时还保持了轻量级的架构,这为在资源受限的平台上高效部署 SOD 技术提供了可能,具有重要的实际应用价值。该研究成果发表在《Engineering Applications of Artificial Intelligence》上。
研究人员在此次研究中运用了多种关键技术方法。首先,采用 PVTv2 作为骨干网络,用于高效地提取多尺度特征。其次,引入上下文特征细化块(Contextual Feature Refinement Blocks,CFRBs),利用空洞卷积来捕捉和细化每个尺度上的丰富上下文信息。此外,还提出了梯形注意力模块(Trapezoidal Attention Module,TAM),它整合了不同的注意力机制,针对不同尺度的特征进行优化处理。
研究结果
- 多尺度特征提取与网络架构设计:研究人员借助 PVTv2 骨干网络,有效提取出多阶段特征,涵盖了初始、中等和成熟阶段的特征。通过对 PVTv2 的不同变体进行分析,设计出的网络架构在满足不同计算需求的同时,还能保持高性能。
- 上下文特征细化块(CFRBs)的作用:CFRBs 利用空洞卷积对骨干网络获取的特征进行处理,增强了特征表示能力。研究人员通过对不同空洞卷积率进行验证,确定了最优的 CFRBs,提升了网络在复杂环境中检测显著目标的能力。
- 梯形注意力模块(TAM)的效果:TAM 整合了互补的注意力机制。自适应空间坐标注意力(Adaptive Spatial Coordinate Attention,ASCA)对初始低级特征进行细化,在减少计算量的同时保留空间细节;特征感知多头注意力(Feature-Aware Multi-Head Attention,FAMHA)处理中级特征,有效建模长距离依赖关系;紧凑通道门(Compact Channel Gate,CCG)则对高级特征进行增强,避免维度降低并自适应调整通道权重。
- 多尺度特征融合的性能提升:通过将不同阶段的特征逐步整合,实现了有效的多尺度特征融合。在六个常用基准数据集上的实验表明,TRSNet 在保持轻量级架构的同时,性能超越了 26 种 SOTA 方法。
研究结论与讨论
研究人员成功构建了 TRSNet 网络,有效平衡了计算成本和性能。该网络利用轻量级 PVTv2 驱动的梯形注意力模块,实现了多层次特征的提取和细化。CFRBs 捕捉了丰富的上下文信息,多种注意力机制协同工作,提升了特征处理的效果。多尺度特征融合策略进一步增强了网络性能。这一研究成果不仅为显著目标检测领域提供了新的思路和方法,也为相关技术在资源受限平台的应用开辟了新方向,具有重要的理论和实践意义。