
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多粒度空间与VMamba时序融合的小样本动作识别方法研究
【字体: 大 中 小 】 时间:2025年05月26日 来源:Expert Systems with Applications 7.5
编辑推荐:
针对小样本动作识别(FSAR)中样本稀疏导致的过拟合问题和时空信息建模不足的挑战,研究人员提出多粒度空间与VMamba时序(MSVT)编码方法。通过多粒度空间编码器(MSE)保持目标视觉语义完整性,结合VMamba时序编码器(VTE)实现双向时空建模,在Kinetics等数据集上5-way 1-shot任务中取得77.2%~90.4%的准确率,为视频理解提供新范式。
在视频理解领域,动作识别(Action Recognition, AR)一直是核心课题,其应用覆盖智能监控、自动驾驶等多个场景。然而传统方法依赖海量标注数据,而医疗等隐私敏感领域难以获取足够样本。小样本动作识别(Few-Shot Action Recognition, FSAR)应运而生,但现有方法面临两大瓶颈:样本稀疏导致模型过拟合,以及单一时序建模忽略空间上下文。更棘手的是,现有空间编码会破坏视频目标完整性——就像拼图被粗暴切割后难以还原全貌;而主流Transformer仅捕捉相邻帧关系,如同管中窥豹,无法感知动作全局演变。
针对这些挑战,甘肃某高校团队在《Expert Systems with Applications》发表研究,提出多粒度空间与VMamba时序(MSVT)融合框架。该工作创新性地采用窗口学习策略保护目标区域,并首次将VMamba引入FSAR领域,实现时空双向编码。实验表明,MSVT在Kinetics等数据集5-way 1-shot任务中准确率最高提升12.3%,推理速度较Transformer提升5倍。
关键技术包括:1)多粒度空间编码器(MSE)通过滑动窗口和可学习token实现目标解耦;2)VMamba时序编码器(VTE)采用跨扫描算法同步处理时空维度;3)复合原型匹配策略融合多粒度相似度。研究使用Kinetics、UCF101等公开数据集,采用episode训练范式验证模型泛化能力。
多粒度空间编码器设计
通过将视频帧分割为重叠窗口,确保每个窗口完整包含目标区域。引入可学习token压缩特征维度,在保持HMDB51数据集目标完整性的同时降低62%计算开销。辅助性提取帧级和块级特征,形成三级空间表示。
VMamba时序建模创新
将VMamba的跨维度扫描机制应用于视频序列:水平扫描捕捉帧间动作演变,垂直扫描学习帧内空间关联。在SSv2数据集上,该模块使时序建模效率提升300%,显著优于传统LSTM和Transformer。
复合原型匹配策略
通过可学习权重融合窗口级、帧级和块级相似度得分。在UCF101的5-way 5-shot任务中,该策略使分类准确率从基准模型68.7%提升至82.4%,证明多粒度特征互补的有效性。
研究结论指出,MSVT通过两大核心突破重新定义了FSAR范式:空间维度上,窗口编码策略首次实现目标区域零损伤;时间维度上,VMamba的双向扫描机制突破单一时序建模局限。这不仅在Kinetics等数据集创造新标杆,更启示视频理解模型应兼顾目标完整性与时空耦合性。作者特别强调,VMamba在视频长序列处理的优势可能推动AR领域架构革新,而其线性计算复杂度为工业部署提供可能。
讨论部分深入分析了三个关键发现:首先,窗口大小与目标尺度的动态匹配是空间编码的关键,过大窗口会引入背景噪声,过小则割裂目标;其次,VMamba的垂直扫描能有效捕捉如"举杯饮水"等动作中手部与杯子的空间关联;最后,在样本极端匮乏(1-shot)场景下,多粒度特征的鲁棒性显著优于单粒度方法。这些发现为后续研究指明方向——如何自适应调整窗口粒度,以及探索VMamba在其他视频理解任务中的潜力,将成为重要课题。
生物通微信公众号
知名企业招聘