《Pattern Recognition》:Category Text-Guided RGBT Tracking with Shared-Specific Feature Representation
编辑推荐:
针对RGB-T跟踪中共享特征不足和目标外观变化的问题,本文提出共享-特定特征表示框架,通过混合注意力模块提取跨模态共享特征和模态特定特征,并设计异构注意力模块抑制冗余交互。结合类别文本生成与特征引导模块,增强对目标动态变化的适应性。实验表明该方法在RGBT234、LasHeR、VTUAV数据集上精度显著提升。
魏伟|王浩莉|边玉朵|邢海娇|丁晨|张雷|周涛|郑江斌|张彦宁
西北工业大学计算机科学与技术学院,中国西安,710072
摘要
RGB图像和热红外(TIR)图像在目标跟踪任务中表现出互补的特性。目前,基于孪生网络的RGBT跟踪方法因其高效率而受到广泛关注。然而,现有基于孪生网络的RGBT跟踪方法的性能仍受限于其有限的特征表示能力。一方面,现有方法过度依赖跨模态共享特征,而忽视了模态特定特征的表示能力;另一方面,目标外观的显著变化使得单一的视觉表示难以捕捉目标外观的多样性。为了解决这些问题并提高跟踪精度,我们提出了一种基于类别文本的RGBT图像跟踪方法,该方法结合了共享特征和特定特征。首先,我们提出了一种混合注意力模块,用于提取和融合不同模态下的共享特征和特定特征。此外,我们还提出了一种非对称注意力模块,以抑制搜索帧和模板帧之间的冗余特征交互。这种结合共享特征和特定特征的跟踪方法能够更好地利用RGBT中的信息进行跟踪。进一步地,我们开发了类别文本生成模块和类别文本特征引导模块,并提出了一种基于类别文本的RGBT跟踪方法。通过将目标类别文本特征与图像特征对齐,该方法能够更好地处理目标外观的变化。在RGBT234、LasHeR和VTUAV数据集上的实验验证了该方法的有效性。
引言
RGB图像包含丰富的纹理细节,有助于精确定位目标边缘[1],但在照明变化、背景干扰和部分遮挡等具有挑战性的条件下,其性能会显著下降[2]。相比之下,TIR图像能够捕捉物体的热辐射特性,因此在光照条件较差、光照快速变化以及存在部分遮挡的场景中具有明显的优势[3]。然而,TIR图像通常缺乏清晰的目标边缘和轮廓[4]。RGBT跟踪方法通过整合RGB和TIR模态的互补信息,逐渐成为目标跟踪研究的热点。这种方法在自动驾驶系统、军事侦察技术和智能监控解决方案等多个领域得到了广泛应用。
RGBT跟踪方法可以分为基于MDNet的架构和基于孪生网络的架构。基于MDNet的方法[5]和其他在线更新范式通常采用策略来实时适应目标外观的变化,例如通过在线跟踪过程中的自适应特征融合[6],从而实现更精确的跟踪。尽管这些方法表现出令人满意的跟踪性能,但其复杂的架构使得实时跟踪变得具有挑战性。相比之下,基于孪生网络的跟踪方法[7]使用相同的神经网络从模板帧和搜索帧中提取不同模态(如TIR和RGB)的特征,并通过参数共享将这些特征合并为统一的表示,然后计算模板帧和当前搜索帧之间的相似性得分。由于孪生网络具有高效的特征提取和匹配机制,这些方法能够在复杂场景中实现快速准确的实时跟踪,成为研究的重点。近年来,基于孪生网络的多种方法已被提出,相关文献对此进行了讨论。
尽管基于孪生网络的RGBT跟踪方法在效率上优于基于MDNet的方法,但它们在复杂场景中的鲁棒性受到两个关键瓶颈的限制。首先,现有方法主要依赖参数共享机制从RGB和TIR图像中提取和融合共享特征。虽然这种方法高效,但无意中放弃了独特的模态特定特征。其次,为了应对目标外观的显著变化,许多研究致力于设计更强大的视觉表示方法,例如融合多粒度特征[8]、[9]以及使用编码器-解码器网络进行领域增强特征对齐[10]。然而,仅依赖视觉信息使得捕捉目标外观的多样性变得困难。
为了解决上述问题,本文首先提出了一种基于共享特征和特定特征的RGBT跟踪方法。该方法设计了一种混合注意力模块,用于同时捕获跨模态的共有特征和各个模态的独特特征,从而提高模型在多模态数据利用方面的效率。此外,本文还提出了一种非对称注意力模块,以减少图像搜索帧和模板帧之间的冗余特征交互,使模型能够更有效地关注与目标相关的信息。然后,基于上述的共享特征和特定特征表示框架,本文提出了一种基于类别文本的RGBT跟踪方法。类别文本生成模块生成类别文本注释,类别文本特征引导模块将目标类别文本特征与目标图像特征对齐,从而增强模型处理目标外观动态变化的能力。在RGBT234、LasHeR和VTUAV数据集上的广泛实验验证了该方法的有效性。
- 我们提出了一种基于共享特征和特定特征的RGBT跟踪方法,通过提取和融合不同模态的共享特征和特定特征,提高了多模态数据的利用效率。
- 我们提出了一种基于类别文本的RGBT跟踪方法,通过将目标类别文本特征与相应图像特征对齐,增强了模型处理目标外观动态变化的能力。
- 在三个基准数据集(LasHeR、VTUAV和RGBT234)上的广泛实验表明,我们的方法在跟踪精度上优于现有的最先进方法。
RGBT跟踪方法
现有的RGBT跟踪方法大致可以分为两类:基于MDNet的架构和基于孪生网络的架构。基于MDNet的方法通常采用多域网络架构,分别为RGB和TIR模态学习领域特定特征,同时共享一个通用的特征表示用于目标跟踪。例如,MANet[11]使用三种具有不同属性的适配器来分离共享特征、领域特定信息和
方法论
我们提出了一种基于类别文本的RGBT图像跟踪方法,该方法结合了共享特征和特定特征。在本节中,我们将首先介绍整个网络的架构,然后详细描述每个组成部分。
实验
我们将提出的方法与几种现有的跟踪算法在三个基准数据集上的性能进行了比较。此外,还进行了全面的消融研究,以评估我们跟踪系统中每个组件的贡献。
结论
在本文中,我们提出了一种名为CTGTrack的新颖RGBT跟踪框架,该框架基于共享特征和特定特征表示。与通常过度依赖跨模态共享特征的常规基于孪生网络的跟踪器不同,我们的方法利用混合注意力模块同时捕获共享信息和模态特定特征,从而增强了特征表示的丰富性,提高了在一个模态退化时的鲁棒性。为了进一步处理目标外观的显著变化
CRediT作者贡献声明
魏伟:监督、项目管理、研究。
王浩莉:撰写 – 审稿与编辑、撰写 – 原稿、方法论、研究。
边玉朵:撰写 – 审稿与编辑、撰写 – 原稿、软件开发、方法论、研究。
邢海娇:撰写 – 原稿、验证、数据管理、概念化。
丁晨:验证、监督。
张雷:验证、监督。
郑江斌:验证、监督。
利益冲突声明
尊敬的编辑们:
感谢您在处理和审阅这篇手稿方面所付出的辛勤努力。作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。
此致
魏伟
致谢
本项工作得到了国家自然科学基金(项目编号:62472359、62372379和62071387)的支持。