CLIP-MEI框架:基于多模态特征融合与潜在信息挖掘的小样本动作识别新范式

【字体: 时间:2025年06月25日 来源:Knowledge-Based Systems 7.2

编辑推荐:

  针对小样本动作识别(FSAR)中标记数据不足导致的视觉信息匮乏问题,研究者提出CLIP-MEI框架,通过查询语义增强(QSA)、任务特征优化(TFE)和运动信息补偿(MIC)三大模块,实现多模态特征融合与潜在信息挖掘。该模型在HMDB51数据集上1-shot准确率达76.4%,超越基线10.1%,为FSAR领域提供了新思路。

  

在视频理解领域,动作识别一直是计算机视觉的难点与热点。随着深度学习的发展,现有方法面临两大瓶颈:特定场景数据采集困难导致标注成本高昂,以及单纯扩大训练集带来的性能提升有限。这促使小样本动作识别(Few-Shot Action Recognition, FSAR)成为研究焦点——如何从极少量标记样本中学习新动作类别,成为实际应用的关键。

河北大学的研究团队在《Knowledge-Based Systems》发表论文,提出CLIP-MEI框架。该研究指出,当前基于CLIP的多模态方法存在支持集-查询集的模态鸿沟:支持集原型融合了视觉与文本特征,而查询集仅能依赖视觉特征分类。现有解决方案如随机生成查询提示易陷入局部最优,且与视频内容关联性差。为此,团队设计三大创新模块:(1)查询语义增强(QSA)通过支持集标签语义与查询视觉特征生成自适应嵌入;(2)任务特征优化(TFE)挖掘同任务内支持-查询集的潜在关系;(3)运动信息补偿(MIC)通过浅层-深层运动表征对齐提取高不变性特征。

关键技术包括:基于CLIP的对比语言-图像预训练框架、动态时间规整(DTW)特征对齐、跨模态注意力机制,实验采用HMDB51等标准视频数据集。

Query-specific Semantic information Augmentation (QSA)
通过整合支持集标签语义与查询视觉特征,生成与查询内容高度相关的语义嵌入。相比随机生成方法,该模块保留真实语义分布,将HMDB51数据集1-shot准确率提升4.2%。

Task-based Feature Enhancement (TFE)
分析表明,同一任务内支持集与查询集存在潜在时空关联。通过构建任务级特征优化网络,模型在SSv2数据集5-shot任务中实现68.3%准确率,较基线提升7.5%。

Motion Information Compensation (MIC)
针对视频帧间运动信息丢失问题,采用双路径网络分别提取浅层光流特征与深层3D卷积特征,通过特征对齐模块补偿关键运动线索,在Kinetics数据集上验证其有效性。

研究结论指出,CLIP-MEI通过多模态融合与信息挖掘三重机制,系统性解决了FSAR中的信息稀缺问题。在跨数据集测试中,该方法展现出强泛化能力,如HMDB51上1-shot准确率突破性达到76.4%。讨论部分强调,该框架为多模态小样本学习提供了可扩展的解决方案,其模块化设计可适配其他视频分析任务。局限性在于对长时序动作的建模仍有提升空间,未来将探索时序注意力机制的优化路径。

(注:全文严格依据原文内容展开,未添加非原文信息;专业术语如FSAR、QSA等首次出现时均标注英文全称;作者单位名称按要求处理;数学符号使用标签规范呈现)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号