跨模态三义相关性-CLIP:用于短视频同质化识别
《ACM Transactions on Multimedia Computing, Communications, and Applications》:Cross-Modal Tri-Semantic Correlation-CLIP for Short Video Homogenization Recognition
【字体:
大
中
小
】
时间:2025年11月07日
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
编辑推荐:
短视同质化检测中提出跨模态三语义关联模型CS3C-CLIP,通过双编码器提取共享特征,结合片选模块与时序编码器生成多层级特征,建立视频-句子、帧-句子、片-词三重语义关联,实验在多个数据集上验证优于SOTA方法。
摘要
短视频是全球最受欢迎的社交媒体形式之一,这引发了大量模仿作品的产生,导致视频内容趋于同质化,其中视觉和文本的同质化最为明显。与依赖视觉外观相似性的近复制视频检索不同,同质化识别更侧重于识别具有相似语义单元的视频。短视频具有多模态特征,即视觉元素和文本元素之间存在多对多的映射关系,且这两种模态相对独立但存在语义关联。因此,需要探索并建立跨模态语义关联以实现短视频的同质化识别。基于分而治之和联合处理的思想,我们提出了一种用于短视频同质化识别的跨模态三语义关联算法(CS3C-CLIP)。首先,使用对比语言-图像预训练的视觉-文本双编码器提取共享子空间中的视觉和文本特征;接着,通过补丁选择模块和时间编码器生成补丁级、帧级和视频级的特征;词级和句子级特征则分别从文本特征和[EOS]标记中提取。通过构建三元组语义关联(即视频-句子、帧-句子和补丁-词)来建立跨模态三语义关联,然后通过测量短视频对之间的聚合跨模态相似度来实现同质化短视频的识别。在三个公开可用的数据集上的实验结果表明,我们的CS3C-CLIP性能优于现有方法,在自建的BJUT-HCD数据集上达到了85.7%的R@1和94.4%的R@5,在MSR-VTT数据集上达到了49.4%的R@1和74.6%,在MSVD数据集上达到了49.8%的R@1和78.1%的R@5。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号