VideoMamba++:融合双注意力机制与状态空间模型的视频理解增强框架

【字体: 时间:2025年06月28日 来源:Image and Vision Computing 4.2

编辑推荐:

  针对Mamba模型在视频理解中存在的空间关系丢失和通道注意力缺失问题,研究人员提出VideoMamba++,通过门控块卷积(GPC)和残差注意力Mamba块(RAMB)整合双注意力机制,在Kinetics-400和SSv2数据集上Top-1准确率分别提升3.6%和3.2%,为长程依赖与局部特征平衡提供新范式。

  

随着深度学习技术的快速发展,视频理解已成为计算机视觉领域的核心挑战。视频数据具有独特的时空特性:相邻帧间存在高度冗余,而关键信息可能分散在时间跨度极大的片段中。传统方法如基于3D卷积神经网络(CNN)的模型虽能处理局部时空特征,但受限于有限感受野;Transformer架构虽能捕捉长程依赖,其O(n2)计算复杂度又制约了实用性。近年来,结构化状态空间序列模型(S4)及其改进版本Mamba因线性计算复杂度和优异的长序列建模能力崭露头角,但将其应用于视频数据时,一维处理方式导致空间信息丢失、局部像素忽略和通道冗余三大瓶颈。

为此,研究人员提出VideoMamba++框架,通过两项创新设计突破上述限制:首先开发门控块卷积(Gated Patch Convolution, GPC),采用多尺度3D卷积核与门控机制协同优化特征提取与分块过程;其次设计残差注意力Mamba块(Residual Attention Mamba Block, RAMB),集成空间注意力、通道注意力与双向Mamba(B-Mamba)模块,通过参数共享策略强化特征交互。在Kinetics-400(K400)和Something-Something V2(SSv2)数据集上的实验表明,该模型Top-1准确率较基线分别提升3.6%和3.2%,甚至以0.3%优势超越当前最优的UniFormer-B模型。相关成果发表于《Image and Vision Computing》,为视频理解领域提供了兼顾效率与性能的新思路。

关键技术方法包括:1)采用Decord库处理K400和SSv2数据集视频帧;2)GPC模块融合3D卷积与门控机制;3)RAMB整合空间/通道注意力与B-Mamba;4)双向状态空间建模捕获时序依赖。

主要研究结果

  1. GPC模块验证:消融实验显示,采用3×3×3卷积核的GPC使K400准确率提升2.1%,证明多尺度特征融合能有效保留空间关系。
  2. 双注意力机制分析:RAMB中空间注意力使局部像素利用率提高18%,通道注意力减少15%冗余特征,参数共享策略进一步降低计算开销。
  3. 长程依赖建模:B-Mamba模块在SSv2数据集上对超过50帧的依赖关系建模准确率比传统Transformer高22%,耗时仅增加7%。
  4. 跨数据集评估:在K400和SSv2分别达到86.7%和72.4%的Top-1准确率,验证模型泛化能力。

结论与意义
VideoMamba++通过GPC和RAMB的创新设计,首次实现Mamba架构在视频理解中空间关系与通道特征的双重优化。其核心价值在于:1)理论层面,证实状态空间模型可通过注意力机制增强空间感知;2)实践层面,为实时视频分析提供高精度解决方案;3)方法论层面,开创"门控卷积+双注意力+Mamba"的混合架构范式。Xin Song团队的工作标志着视频理解模型从"效率-精度"权衡向"双赢"阶段的重要跨越,尤其为长视频分析、实时监控等场景奠定技术基础。未来可探索该框架在医疗视频分析、自动驾驶等领域的迁移应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号