
-
生物通官微
陪你抓住生命科技
跳动的脉搏
VideoMamba++:融合双注意力机制与状态空间模型的视频理解增强框架
【字体: 大 中 小 】 时间:2025年06月28日 来源:Image and Vision Computing 4.2
编辑推荐:
针对Mamba模型在视频理解中存在的空间关系丢失和通道注意力缺失问题,研究人员提出VideoMamba++,通过门控块卷积(GPC)和残差注意力Mamba块(RAMB)整合双注意力机制,在Kinetics-400和SSv2数据集上Top-1准确率分别提升3.6%和3.2%,为长程依赖与局部特征平衡提供新范式。
随着深度学习技术的快速发展,视频理解已成为计算机视觉领域的核心挑战。视频数据具有独特的时空特性:相邻帧间存在高度冗余,而关键信息可能分散在时间跨度极大的片段中。传统方法如基于3D卷积神经网络(CNN)的模型虽能处理局部时空特征,但受限于有限感受野;Transformer架构虽能捕捉长程依赖,其O(n2)计算复杂度又制约了实用性。近年来,结构化状态空间序列模型(S4)及其改进版本Mamba因线性计算复杂度和优异的长序列建模能力崭露头角,但将其应用于视频数据时,一维处理方式导致空间信息丢失、局部像素忽略和通道冗余三大瓶颈。
为此,研究人员提出VideoMamba++框架,通过两项创新设计突破上述限制:首先开发门控块卷积(Gated Patch Convolution, GPC),采用多尺度3D卷积核与门控机制协同优化特征提取与分块过程;其次设计残差注意力Mamba块(Residual Attention Mamba Block, RAMB),集成空间注意力、通道注意力与双向Mamba(B-Mamba)模块,通过参数共享策略强化特征交互。在Kinetics-400(K400)和Something-Something V2(SSv2)数据集上的实验表明,该模型Top-1准确率较基线分别提升3.6%和3.2%,甚至以0.3%优势超越当前最优的UniFormer-B模型。相关成果发表于《Image and Vision Computing》,为视频理解领域提供了兼顾效率与性能的新思路。
关键技术方法包括:1)采用Decord库处理K400和SSv2数据集视频帧;2)GPC模块融合3D卷积与门控机制;3)RAMB整合空间/通道注意力与B-Mamba;4)双向状态空间建模捕获时序依赖。
主要研究结果
结论与意义
VideoMamba++通过GPC和RAMB的创新设计,首次实现Mamba架构在视频理解中空间关系与通道特征的双重优化。其核心价值在于:1)理论层面,证实状态空间模型可通过注意力机制增强空间感知;2)实践层面,为实时视频分析提供高精度解决方案;3)方法论层面,开创"门控卷积+双注意力+Mamba"的混合架构范式。Xin Song团队的工作标志着视频理解模型从"效率-精度"权衡向"双赢"阶段的重要跨越,尤其为长视频分析、实时监控等场景奠定技术基础。未来可探索该框架在医疗视频分析、自动驾驶等领域的迁移应用。
生物通微信公众号
知名企业招聘