联合多粒度相似性对比学习在视频-文本检索中的创新应用

【字体: 时间:2025年08月28日 来源:Neurocomputing 6.5

编辑推荐:

  本文推荐一篇突破性研究:作者团队针对视频-文本检索(VTR)中多模态特征交互不足、粒度相似性融合不精准等瓶颈,提出联合多粒度相似性对比学习模型(JM-VTR)。通过跨模态与模态内多粒度特征对比(如帧-词、视频-句子),结合独创的注意力联合模态相似性模块(AJS),显著提升R@10指标。实验证明其在四个基准数据集上超越现有最优方法,为多模态学习领域提供新范式。

  

Highlight

基于图像-文本检索的启发,我们提出了一种联合多粒度相似性对比学习方法(JM-VTR),这是视频-文本检索领域的一项高效解决方案。

The proposed method

方法概述

如图2所示,JM-VTR模型包含三大核心:

  1. 1.

    多粒度表征:使用时序多模态Transformer提取视频文本数据的细粒度(如单帧/单词)与粗粒度(如完整视频/句子)特征。

  2. 2.

    联合对比学习:执行跨模态(视频?文本)和模态内(视频帧间/文本词间)的多粒度特征对比,通过余弦相似度计算消除冗余信息干扰。

  3. 3.

    AJS模块:创新性设计注意力联合模态相似性(Attention Joint-modal Similarity)模块,动态分配不同粒度相似性权重,融合生成实例级匹配分数。

Experiments

实验验证

在四个基准数据集上的测试表明:

  • JM-VTR在文本→视频检索任务中R@10指标显著优于CLIP4Clip、X-CLIP等现有模型。

  • 消融实验证实AJS模块对无效信息的过滤能力,其注意力机制使相关帧-词对相似度提升23%。

Conclusion

JM-VTR通过多维特征对比与自适应相似性融合,解决了传统方法中粒度偏差问题。未来可扩展至医疗影像-报告检索等生命科学跨模态场景。

(注:翻译严格遵循术语规范,如Transformer、CLIP等保留原名;技术表述兼顾专业性与生动性,如"动态分配权重"替代机械直译;去除了文献引用标识[1][2]等。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号