基于知识蒸馏的多粒度对齐技术用于部分相关视频的检索
《ACM Transactions on Multimedia Computing, Communications, and Applications》:Multi-Grained Alignment with Knowledge Distillation for Partially Relevant Video Retrieval
【字体:
大
中
小
】
时间:2025年11月07日
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
编辑推荐:
多粒度跨模态对齐框架MGAKD通过知识蒸馏从CLIP中提取跨模态对齐知识,设计继承与探索双分支,分别实现帧级直接特征对齐、片段级高斯掩码建模事件结构、视频级片段引导注意力机制,有效避免无关片段干扰,在公开数据集上超越SOTA方法。
摘要
部分相关视频检索(PRVR)旨在从未剪辑的视频中准确检索与查询最相关的视频。视频内容的分析可以在三种不同的粒度上进行:帧级、片段级和视频级。以往的方法主要集中在其中一两种粒度上进行对齐,这限制了对视频语义的探索。此外,一些方法使用视频级对齐并应用自注意力机制来生成视频级特征,但这可能并不理想,因为整个视频可能与查询无关。我们提出了一个基于多级对抗蒸馏(MGAKD)的框架,该框架从对比语言-图像预训练(CLIP)模型中提取跨模态对齐知识,并实现多粒度对齐。它从CLIP中提取跨模态对齐知识,并将这些知识传递给设计的学生模型。对于学生模型,我们设计了两个分支:继承分支和探索分支。继承分支从CLIP中吸收跨模态对齐知识;探索分支则在三种粒度(帧级、片段级和视频级)上探索视觉特征。具体来说,我们直接将提取的视频帧特征与查询特征进行对齐,以实现帧级对齐。在片段级对齐中,使用高斯掩码可以表示事件的开始、高潮和结束部分。通过使用高斯掩码,我们能够隐式地建模片段级特征,从而生成包含更丰富上下文信息的片段特征。为了进一步增强视频级特征的探索能力,我们应用片段引导的注意力机制,根据不同的查询生成多样化的视频级特征。这种策略有效地防止了无关视频片段影响视频和查询的对齐结果。我们在两个公开可用的数据集上进行了广泛的实验,实验结果优于现有的最先进方法,证明了所提出方法的优越性能。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号