基于解耦-联合适应的视觉语言增强网络在少样本动作识别中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Circuits and Systems for Video Technology》：Vision-Language Enhancement Network Based on Decoupling-Joint Adaptation for Few-Shot Action Recognition

【字体：大中小】 时间：2025年11月22日 来源：IEEE Transactions on Circuits and Systems for Video Technology 11.1

编辑推荐：

　　提出veda模型通过解耦视觉特征为时空分支，结合适配器调优范式实现联合优化，并设计视频级关系模块和视觉语言融合模块缓解数据稀缺问题，在五项基准测试中验证了其有效性和泛化能力。

摘要：

学习强大且具有泛化能力的特征提取器以生成具有区分性的原型对于少样本动作识别至关重要。然而，大多数现有方法依赖于对大型预训练图像模型进行微调，这容易导致迁移能力和过拟合问题。在本文中，我们提出了一种基于解耦-联合适应（VEDA）的新型视觉-语言增强网络，用于少样本动作识别。该网络将视觉特征分解为时间和空间两个分支，然后通过一种适配器调优范式将这两个分支整合在一起。VEDA能够逐步赋予模型时空推理能力。由于仅依赖局部帧特征匹配会导致性能不准确，我们设计了一个视频级关系模块（VLR），通过全局特征匹配来增强视频上下文感知。此外，我们还设计了一个视觉-语言融合模块（VLF），引入多模态信息以缓解数据稀缺问题。同时，我们对视觉和文本分支都应用了适配器调优技术，以提高泛化能力。基于上述组件，我们的网络能够提取既具有信息性又具有区分性的原型，从而实现出色的识别性能。在五个具有挑战性的基准测试上的实验结果证明了所提出的VEDA的有效性。代码即将发布在 https://github.com/ReverseSuzhou/VEDA。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号