语言引导的视觉跟踪：全面而有效的多模态信息融合

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Multimedia Computing, Communications, and Applications》：Language-guided Visual Tracking: Comprehensive and Effective Multimodal Information Fusion

【字体：大中小】 时间：2025年11月07日 来源：ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐：

　　视觉语言跟踪中提出LGTrack框架，通过增强多模态交互模块实现早期语言多级引导的视觉编码，结合基于联合查询的多模态解码策略，并引入对比学习对齐语义空间，在LaSOT、TNL2K、OTB99-Lang等基准测试中显著优于现有方法。

摘要

当前的视觉语言跟踪器在全面且有效地融合多模态信息方面存在困难，导致在多模态任务中的性能不佳。本研究介绍了LGTrack，这是一种新颖的基于语言的视觉跟踪框架，旨在实现更全面、更高效的视觉与语言信息融合。在编码阶段，提出了一个增强型多模态交互模块（Enhanced Multimodal Interaction Module），以实现完全的多模态融合，并利用该模块构建了早期语言多层次引导的多模态编码（Early Language Multilevel-guided Multimodal Encoding），该编码方法利用深度语义信息对视觉编码进行早期和多层次的引导。在解码阶段，提出了一种基于联合查询（Joint Query）的多模态解码方法，该方法利用来自视觉和语言模态的全局特征，有效指导解码层的运行。这些创新实现了更全面的多模态信息融合。此外，还引入了一种对比学习策略，用于在语义空间中对齐视觉-语言特征，进一步提升了融合效果。在LaSOT、TNL2K和OTB99-Lang等多个基准测试上的广泛实验表明，我们的方法优于现有的最先进跟踪器。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号