联合多粒度相似性对比学习在视频-文本检索中的创新应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月28日 来源：Neurocomputing 6.5

编辑推荐：

　　本文推荐一篇突破性研究：作者团队针对视频-文本检索（VTR）中多模态特征交互不足、粒度相似性融合不精准等瓶颈，提出联合多粒度相似性对比学习模型（JM-VTR）。通过跨模态与模态内多粒度特征对比（如帧-词、视频-句子），结合独创的注意力联合模态相似性模块（AJS），显著提升R@10指标。实验证明其在四个基准数据集上超越现有最优方法，为多模态学习领域提供新范式。

Highlight

基于图像-文本检索的启发，我们提出了一种联合多粒度相似性对比学习方法（JM-VTR），这是视频-文本检索领域的一项高效解决方案。

The proposed method

方法概述

如图2所示，JM-VTR模型包含三大核心：

1.
多粒度表征：使用时序多模态Transformer提取视频文本数据的细粒度（如单帧/单词）与粗粒度（如完整视频/句子）特征。
2.
联合对比学习：执行跨模态（视频?文本）和模态内（视频帧间/文本词间）的多粒度特征对比，通过余弦相似度计算消除冗余信息干扰。
3.
AJS模块：创新性设计注意力联合模态相似性（Attention Joint-modal Similarity）模块，动态分配不同粒度相似性权重，融合生成实例级匹配分数。

Experiments

实验验证

在四个基准数据集上的测试表明：

•
JM-VTR在文本→视频检索任务中R@10指标显著优于CLIP4Clip、X-CLIP等现有模型。
•
消融实验证实AJS模块对无效信息的过滤能力，其注意力机制使相关帧-词对相似度提升23%。

Conclusion

JM-VTR通过多维特征对比与自适应相似性融合，解决了传统方法中粒度偏差问题。未来可扩展至医疗影像-报告检索等生命科学跨模态场景。

（注：翻译严格遵循术语规范，如Transformer、CLIP等保留原名；技术表述兼顾专业性与生动性，如"动态分配权重"替代机械直译；去除了文献引用标识[1][2]等。）

热点排行

新闻专题

联系信箱：

粤ICP备09063491号