基于解耦-联合适应的视觉语言增强网络在少样本动作识别中的应用
《IEEE Transactions on Circuits and Systems for Video Technology》:Vision-Language Enhancement Network Based on Decoupling-Joint Adaptation for Few-Shot Action Recognition
【字体:
大
中
小
】
时间:2025年11月22日
来源:IEEE Transactions on Circuits and Systems for Video Technology 11.1
编辑推荐:
提出veda模型通过解耦视觉特征为时空分支,结合适配器调优范式实现联合优化,并设计视频级关系模块和视觉语言融合模块缓解数据稀缺问题,在五项基准测试中验证了其有效性和泛化能力。
摘要:
学习强大且具有泛化能力的特征提取器以生成具有区分性的原型对于少样本动作识别至关重要。然而,大多数现有方法依赖于对大型预训练图像模型进行微调,这容易导致迁移能力和过拟合问题。在本文中,我们提出了一种基于解耦-联合适应(VEDA)的新型视觉-语言增强网络,用于少样本动作识别。该网络将视觉特征分解为时间和空间两个分支,然后通过一种适配器调优范式将这两个分支整合在一起。VEDA能够逐步赋予模型时空推理能力。由于仅依赖局部帧特征匹配会导致性能不准确,我们设计了一个视频级关系模块(VLR),通过全局特征匹配来增强视频上下文感知。此外,我们还设计了一个视觉-语言融合模块(VLF),引入多模态信息以缓解数据稀缺问题。同时,我们对视觉和文本分支都应用了适配器调优技术,以提高泛化能力。基于上述组件,我们的网络能够提取既具有信息性又具有区分性的原型,从而实现出色的识别性能。在五个具有挑战性的基准测试上的实验结果证明了所提出的VEDA的有效性。代码即将发布在 https://github.com/ReverseSuzhou/VEDA。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号