VideoMamba++：融合双注意力机制与状态空间模型的视频理解增强框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月28日 来源：Image and Vision Computing 4.2

编辑推荐：

　　针对Mamba模型在视频理解中存在的空间关系丢失和通道注意力缺失问题，研究人员提出VideoMamba++，通过门控块卷积（GPC）和残差注意力Mamba块（RAMB）整合双注意力机制，在Kinetics-400和SSv2数据集上Top-1准确率分别提升3.6%和3.2%，为长程依赖与局部特征平衡提供新范式。

随着深度学习技术的快速发展，视频理解已成为计算机视觉领域的核心挑战。视频数据具有独特的时空特性：相邻帧间存在高度冗余，而关键信息可能分散在时间跨度极大的片段中。传统方法如基于3D卷积神经网络(CNN)的模型虽能处理局部时空特征，但受限于有限感受野；Transformer架构虽能捕捉长程依赖，其O(n²)计算复杂度又制约了实用性。近年来，结构化状态空间序列模型(S4)及其改进版本Mamba因线性计算复杂度和优异的长序列建模能力崭露头角，但将其应用于视频数据时，一维处理方式导致空间信息丢失、局部像素忽略和通道冗余三大瓶颈。

为此，研究人员提出VideoMamba++框架，通过两项创新设计突破上述限制：首先开发门控块卷积(Gated Patch Convolution, GPC)，采用多尺度3D卷积核与门控机制协同优化特征提取与分块过程；其次设计残差注意力Mamba块(Residual Attention Mamba Block, RAMB)，集成空间注意力、通道注意力与双向Mamba(B-Mamba)模块，通过参数共享策略强化特征交互。在Kinetics-400(K400)和Something-Something V2(SSv2)数据集上的实验表明，该模型Top-1准确率较基线分别提升3.6%和3.2%，甚至以0.3%优势超越当前最优的UniFormer-B模型。相关成果发表于《Image and Vision Computing》，为视频理解领域提供了兼顾效率与性能的新思路。

关键技术方法包括：1)采用Decord库处理K400和SSv2数据集视频帧；2)GPC模块融合3D卷积与门控机制；3)RAMB整合空间/通道注意力与B-Mamba；4)双向状态空间建模捕获时序依赖。

主要研究结果

GPC模块验证：消融实验显示，采用3×3×3卷积核的GPC使K400准确率提升2.1%，证明多尺度特征融合能有效保留空间关系。
双注意力机制分析：RAMB中空间注意力使局部像素利用率提高18%，通道注意力减少15%冗余特征，参数共享策略进一步降低计算开销。
长程依赖建模：B-Mamba模块在SSv2数据集上对超过50帧的依赖关系建模准确率比传统Transformer高22%，耗时仅增加7%。
跨数据集评估：在K400和SSv2分别达到86.7%和72.4%的Top-1准确率，验证模型泛化能力。

结论与意义
VideoMamba++通过GPC和RAMB的创新设计，首次实现Mamba架构在视频理解中空间关系与通道特征的双重优化。其核心价值在于：1)理论层面，证实状态空间模型可通过注意力机制增强空间感知；2)实践层面，为实时视频分析提供高精度解决方案；3)方法论层面，开创"门控卷积+双注意力+Mamba"的混合架构范式。Xin Song团队的工作标志着视频理解模型从"效率-精度"权衡向"双赢"阶段的重要跨越，尤其为长视频分析、实时监控等场景奠定技术基础。未来可探索该框架在医疗视频分析、自动驾驶等领域的迁移应用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号