DPCA-Net:一种用于鲁棒多模态小样本动作识别的双原型一致性对齐网络
《IEEE Transactions on Circuits and Systems for Video Technology》:DPCA-Net: Dual-Prototype Consistency Alignment Network for Robust Multimodal Few-shot Action Recognition
【字体:
大
中
小
】
时间:2025年11月22日
来源:IEEE Transactions on Circuits and Systems for Video Technology 11.1
编辑推荐:
跨模态度量学习框架DPCA-Net通过统一双原型一致性空间建模分布、结构和度量一致性,提升少数样本动作识别性能。其核心组件包括文本引导的帧级建模(FTM)、双路径动态时间对齐(Dual-DTW)和分布一致性映射(DCM)。实验在Kinetics上1-shot达89.7%,UCF-101上5-shot达99.12%,显著优于CLIP-FSAR。
摘要:
少样本动作识别旨在在标注样本有限的情况下识别新的动作。虽然结合视频和文本模态的双模态方法能够提供更丰富的语义上下文,但现有方法通常依赖于简单的特征融合策略,无法捕捉到跨模态的深层语义关联,从而限制了模型的泛化能力。我们提出了DPCA-Net,这是一个双模态度量学习框架,它构建了一个统一的双原型一致性对齐空间。DPCA-Net明确地建模了跨模态的分布一致性、结构一致性和度量一致性,以提高原型的质量和相似性估计。该框架整合了三个核心组件:(1)基于文本的帧级建模(FTM),它利用条件提示学习将视频帧级的视觉特征嵌入到文本空间中,实现结构一致性;(2)通过双路径动态时间规整(Dual-DTW)进行双模态度量学习,联合对齐视觉原型和跨模态原型,确保度量一致性;(3)分布一致性映射(DCM),它利用最大均值差异和余弦相似性来对齐支持向量与查询向量,增强表示的鲁棒性。在三个基准数据集上的广泛实验表明,DPCA-Net的性能始终优于之前的方法。在Kinetics数据集上,其性能比CLIP-FSAR高出1.3%–2.7%,在UCF-101数据集上,1-shot任务的成绩为89.7%,5-shot任务的成绩为99.12%。这些结果突显了基于一致性驱动的原型对齐方法在鲁棒且泛化的跨模态少样本动作识别中的有效性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号