
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于CLIP多模态自适应的小样本动作识别方法MA-FSAR研究
【字体: 大 中 小 】 时间:2025年06月16日 来源:Pattern Recognition 7.5
编辑推荐:
为解决小样本动作识别(FSAR)中CLIP模型全参数微调计算成本高、忽视时序建模和语义聚焦的问题,研究人员提出参数高效微调(PEFT)框架MA-FSAR,通过全局时序适配和局部多模态适配机制增强动作表征,在5个数据集上以最少可训练参数实现最优性能。该研究为视觉-语言大模型在FSAR领域的高效应用提供了新范式。
在人工智能领域,小样本动作识别(FSAR)因其在监控、医疗等场景的应用价值备受关注。然而,现有方法面临两大困境:一是依赖全参数微调视觉-语言大模型如CLIP,导致计算资源消耗巨大;二是传统方法将时序建模和语义蒸馏后置处理,难以直接捕捉动作本质特征。这些瓶颈严重制约了FSAR在工业场景的落地应用。
来自浙江大学控制科学与工程学院的研究团队在《Pattern Recognition》发表论文,提出MA-FSAR创新框架。该研究通过参数高效微调(PEFT)技术,首次在CLIP视觉编码器中实现动作相关时序与语义表征的协同优化。核心突破在于设计细粒度多模态适配(FgMA)机制:全局时序适配(GTA)通过类令牌高效捕获运动线索,局部多模态适配(LMA)融合支持集文本特征强化动作关键语义。实验表明,该方法在Kinetics等5个数据集上以仅0.8%的可训练参数,实现5-way 1-shot任务最高6.7%的性能提升。
关键技术包含:1) 基于SSv2等时空特征数据集的跨模态对比学习;2) 类令牌驱动的轻量化时序建模;3) 文本引导的原型构建模块(TPCM);4) 支持集视觉-文本特征的多模态交互。
【Global Temporal Adaptation】
通过分离CLIP视觉令牌中的类令牌,采用时序适配器提取跨帧运动特征。相比传统方法降低78%计算量,在时序数据集SSv2上准确率提升4.2%。
【Local Multimodal Adaptation】
构建查询-支持双分支结构:查询分支聚焦时空细节,支持分支融合文本令牌实现细粒度语义对齐。可视化显示注意力权重更集中于动作相关物体。
【Text-guided Prototype Construction】
利用支持集文本特征重构视频原型,使同类样本特征距离缩小19%,跨类样本区分度提高23%。
研究结论表明,MA-FSAR首次实现CLIP模型在FSAR任务中的"即插即用"式适配,突破性地将时序建模与语义蒸馏前置于特征提取阶段。讨论部分强调,该方法为视觉-语言大模型在医疗行为分析等数据稀缺场景的应用提供新思路,其模块化设计可兼容各类度量学习框架。作者Jiazheng Xing等指出,未来可探索多尺度时序建模以进一步提升对复杂动作的解析能力。
生物通微信公众号
知名企业招聘