SAGNet：协同注意力图网络用于视频显著目标检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Image and Vision Computing》：SAGNet: Synergistic Attention-Graph Network For video salient object detection

【字体：大中小】 时间：2025年05月27日 来源：Image and Vision Computing 4.2

编辑推荐：

　　在视频显著目标检测（VSOD）中，现有方法存在运动信息捕捉有限、计算复杂等问题。研究人员提出 SAGNet，通过协同注意力图模块（SAGM）和空间边缘注意力模块（SEM）提取时空线索与边缘特征。实验表明其在精度和效率上表现更优，为 VSOD 提供新方案。

　　在视频内容分析的浩瀚海洋中，精准定位画面里的显著目标如同在复杂洋流中寻找灯塔，这便是视频显著目标检测（VSOD）的核心任务。它不仅是视觉跟踪、视频分割等下游任务的基石，还在智能监控、影视编辑等领域扮演关键角色。然而，当下的 VSOD 技术正面临多重挑战：传统基于 3D 卷积神经网络（3D CNN）、卷积长短期记忆网络（ConvLSTM）的方法，要么因计算复杂度高而难以处理长时序数据，要么依赖光流图导致额外计算成本且受限于光流精度；基于 Transformer 的模型虽擅长全局特征建模，却在局部细节捕捉和运动信息提取上力有不逮；而图卷积网络（GCN）虽能强化局部结构特征，却缺乏对时序动态的感知能力，且深层网络易出现节点过度平滑问题。此外，多数方法对低层特征中的空间与边缘信息利用不足，导致检测结果在细节刻画上不够细腻。

为突破这些瓶颈，河北师范大学的研究人员开展了一项颇具创新性的研究，相关成果发表在《Image and Vision Computing》。他们提出了一种协同注意力图网络（SAGNet），旨在通过精巧的模块设计，实现时空特征的高效融合与细节信息的精准捕捉，为 VSOD 任务提供更优解。

研究人员主要采用了以下关键技术方法：一是设计协同注意力图模块（SAGM），将帧间注意力（Inter-frame Attention）与时空图卷积网络（Spatial-Temporal GCN）相结合，前者通过多头自注意力机制捕捉相邻帧间的时序关联与运动信息，后者将视频特征建模为图结构，分空间和时间分支分别通过边缘卷积和一维卷积提取局部特征，二者互补以兼顾全局依赖与局部细节；二是开发空间边缘注意力模块（SEM），利用 Sobel 算子和空间注意力机制，从低层特征中提取空间与边缘信息并融合到高层特征，增强预测图的结构细节。

实验设置与数据集

研究选用 DAVIS、DAVSOD、FBMS、SegTrack-V2 等多个 VSOD 基准数据集进行性能评估。其中，DAVIS 包含 20 个测试序列和 30 个训练序列，DAVSOD 按场景复杂度分为简单、普通、困难三类，为模型提供了多维度的验证场景。

模型架构与创新点

SAGNet 采用 U 型编码器 - 解码器架构，可同时处理多帧连续视频输入。编码器基于金字塔视觉 Transformer（PVT），能高效提取多尺度特征。核心模块 SAGM 通过帧间注意力扩展时空 GCN 的感受野，同时利用 GCN 的拓扑信息捕捉能力强化局部特征建模；SEM 则作用于低层特征，通过空间注意力与边缘检测算子，为高层语义特征注入丰富的空间细节。

实验结果

在六项公开数据集上，SAGNet 在三项评估指标中均超越现有先进方法。具体而言，其通过帧间注意力机制无需依赖光流图即可有效捕捉运动信息，相较传统方法显著降低计算成本；时空 GCN 的引入弥补了 Transformer 在局部特征提取上的不足，使模型能同时处理长程依赖与局部结构；SEM 模块的加入则显著提升了检测结果的边缘清晰度与空间定位精度，尤其在复杂场景下的目标分割表现更优。

结论与意义

这项研究首次将帧间注意力与时空 GCN 结合应用于 VSOD 任务，通过双模块协同机制，成功解决了现有方法在运动信息捕捉、计算效率与细节表征上的多重局限。实验结果不仅验证了 SAGNet 在检测精度与效率上的优越性，更展现了跨模态特征融合与低层特征利用的重要性。该模型为 VSOD 领域提供了一种兼具创新性与实用性的解决方案，有望推动其在智能视频分析、人机交互等实际场景中的应用，为后续研究提供了新的技术思路与方法论参考。研究中提出的模块设计理念，如注意力机制与图网络的结合，也可迁移至其他视频理解任务，展现出广泛的技术拓展潜力。

联系信箱：

粤ICP备09063491号

实验设置与数据集

模型架构与创新点

实验结果

结论与意义

热点排行