动态尺度位置嵌入(DSPE):跨模态表征学习中多尺度时序语义理解的新范式

【字体: 时间:2025年09月13日 来源:Neural Networks 6.3

编辑推荐:

  本文提出动态尺度位置嵌入(Dynamic Scale Position Embedding, DSPE)方法,通过动态调整视频帧的位置嵌入(Position Embedding)使单一Transformer能够理解多尺度时序语义,显著提升跨模态(Cross-Modal)对齐能力。该方法在四个主流数据集(MSR-VTT、LSMDC等)的文本-视频检索与视频描述任务中均取得一致性能提升,为视频-语言表征学习提供了高效且可扩展的解决方案。

  

Highlight

我们提出动态尺度位置嵌入(Dynamic Scale Position Embedding, DSPE),这是一种基于位置编码的创新方法,通过动态调整每一帧的位置数值,引导时序编码器理解多样化的时间尺度。

我们设计了一种多尺度时序编码器结构,能够基于单一编码器高效理解并聚合多尺度时序信息,提供全面且丰富的表征。

我们通过将所提出的编码器应用于现有工作,在四个广泛使用的基准数据集和两种不同下游任务中均实现了性能的持续提升,实证了多尺度时序理解的重要性。

Video-Text Encoding

一般而言,跨模态学习旨在通过跨模态对比学习(Cross-Modal Contrastive Learning)训练一个联合潜在空间。我们的方法初始权重迁移自在大规模图像-文本数据集上预训练的CLIP模型(Radford et al., 2021)。

CLIP模型包含两个编码器:一个帧编码器(CLIPf)和一个句子编码器(CLIPs)。给定一个帧序列 V = {vi}i=1F,其中 vi ∈ R3×H×W 代表均匀采样的帧,F 代表视频长度,我们独立地嵌入视频帧为 cfi = CLIPf(vi)。类似地,对于一个句子 S,我们将其输入 CLIPs 以获得文本特征 cs

Datasets

我们主要工作中使用的四个数据集具有独特的统计特性,如表1所总结。MSR-VTT(Xu et al., 2016)包含10,000个商业来源的视频,并附有人工生成的描述性句子。遵循先前工作(Luo et al., 2022),我们将视频划分为9,000个用于训练集和1,000个用于测试集,以进行视频检索任务。对于视频描述任务,我们将视频划分为6,513、497和2,990个片段,分别用于训练、验证和测试集。

Conclusion

我们提出了DSPE,这是一种新颖的方法,它通过动态调整位置嵌入(Position Embedding)使模型能够理解不同时间尺度下的视频内容。这种方法使得单一的Transformer编码器能够以多种粒度级别解读视频,有效捕捉复杂视频数据中固有的多样化语义短语(Semantic Phrase)。通过为每个视频选择最佳的时间粒度,DSPE增强了跨模态对齐(Cross-Modal Alignment)并丰富了对视频内容的语义理解。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号