语言引导的视觉跟踪:全面而有效的多模态信息融合
《ACM Transactions on Multimedia Computing, Communications, and Applications》:Language-guided Visual Tracking: Comprehensive and Effective Multimodal Information Fusion
【字体:
大
中
小
】
时间:2025年11月07日
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
编辑推荐:
视觉语言跟踪中提出LGTrack框架,通过增强多模态交互模块实现早期语言多级引导的视觉编码,结合基于联合查询的多模态解码策略,并引入对比学习对齐语义空间,在LaSOT、TNL2K、OTB99-Lang等基准测试中显著优于现有方法。
摘要
当前的视觉语言跟踪器在全面且有效地融合多模态信息方面存在困难,导致在多模态任务中的性能不佳。本研究介绍了LGTrack,这是一种新颖的基于语言的视觉跟踪框架,旨在实现更全面、更高效的视觉与语言信息融合。在编码阶段,提出了一个增强型多模态交互模块(Enhanced Multimodal Interaction Module),以实现完全的多模态融合,并利用该模块构建了早期语言多层次引导的多模态编码(Early Language Multilevel-guided Multimodal Encoding),该编码方法利用深度语义信息对视觉编码进行早期和多层次的引导。在解码阶段,提出了一种基于联合查询(Joint Query)的多模态解码方法,该方法利用来自视觉和语言模态的全局特征,有效指导解码层的运行。这些创新实现了更全面的多模态信息融合。此外,还引入了一种对比学习策略,用于在语义空间中对齐视觉-语言特征,进一步提升了融合效果。在LaSOT、TNL2K和OTB99-Lang等多个基准测试上的广泛实验表明,我们的方法优于现有的最先进跟踪器。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号