一种基于Mamba历史提示的视觉对象跟踪方法

《The Knee》:A Visual Object Tracking method based on Historical Prompts of Mamba

【字体: 时间:2025年10月28日 来源:The Knee 1.6

编辑推荐:

  视觉目标跟踪中提出基于状态空间模型的历史信息聚合方法TIGM,通过动态筛选关键历史特征和特征增强模块,在保证跟踪精度的同时显著降低计算负担。

  随着计算机视觉技术的快速发展,视觉目标跟踪(Visual Object Tracking, VOT)已成为一项重要的研究课题。VOT的任务是根据目标在前一帧中的位置,在后续视频帧中准确识别并定位目标。然而,目标在视频序列中常常会受到背景干扰、光照变化、遮挡、尺度变化和旋转等多种因素的影响,这使得VOT任务面临诸多挑战。为了提高跟踪的准确性和鲁棒性,近年来的研究开始关注如何有效利用目标的历史信息(Historical Information, HI)来指导跟踪过程。一些方法通过引入历史提示(Historical Prompt, HP)机制,将目标的历史状态作为额外的提示信息,用于增强当前帧的跟踪性能。然而,这种方法也带来了一些问题,如计算负担增加、推理速度下降以及历史信息的存储和传播效率不高等。

当前的VOT方法中,许多基于Transformer的模型被广泛采用。这些模型通常将图像划分为固定大小的块,并通过嵌入操作将其映射到高维空间,从而生成图像块嵌入令牌。随后,这些令牌被输入到Transformer主干网络中,用于提取模板与搜索区域之间的相关性信息,实现特征提取和融合。这种方法在一定程度上提高了跟踪的准确性,但也存在一些不足之处。例如,一些方法需要存储大量的历史令牌,这不仅增加了内存消耗,还对计算资源提出了更高的要求。而另一些方法则通过减少历史令牌的数量来降低计算成本,但这可能导致目标的历史信息表示不足,从而影响跟踪的稳定性。

针对上述问题,本文提出了一种基于状态空间模型(State Space Model, SSM)的新型历史提示生成方法,即TIGM(Temporal Information Guided Model)。TIGM的核心思想是利用SSM的机制来整合目标的历史状态信息,并通过动态的门控机制选择关键的历史信息,同时平滑掉不相关的干扰信息。这种方法能够在不增加过多计算负担的前提下,有效保留目标的历史信息,从而提高跟踪的鲁棒性。具体来说,TIGM能够接收并更新远距离的历史信息,而不是仅依赖于最近的帧。通过这种方式,模型可以在跟踪过程中更全面地考虑目标的历史状态,避免因目标外观变化而导致的误差累积。

在TIGM中,历史提示(HP)的生成过程被重新设计。首先,当前帧的目标状态信息被提取出来,然后通过SSM机制与之前生成的历史提示进行整合,从而生成下一帧的历史提示。SSM能够通过缓慢衰减的隐藏状态来保留长期的信息,使得历史提示能够有效反映目标在不同时间点的特征变化。同时,时间步参数(timestep parameter)被引入作为动态的、选择性的门控机制,用于控制隐藏状态的演变速度以及新历史提示输入的影响程度。这一机制使得模型能够在跟踪过程中选择重要的历史信息,同时忽略不相关的干扰信息,从而提高跟踪的准确性。

为了进一步提高模型的性能,本文还设计了一个特征增强模块(Feature Enhancement Module, FEM)。FEM的主要作用是优化ViT主干网络提取的目标特征,并通过通道注意力和空间注意力机制来抑制背景干扰带来的噪声。这样能够生成更加可靠和具有区分性的目标特征表示,从而提高跟踪的鲁棒性。此外,FEM还能够将历史提示与目标的视觉特征进行融合,确保历史提示能够专注于正确的目标,而不是与目标相似的其他物体。这一设计使得模型在跟踪过程中能够更准确地识别目标,提高跟踪的稳定性。

在实验部分,本文在多个主流数据集上进行了测试,包括GOT-10k、LaSOT、TrackingNet、UAV123和TNL2K等。实验结果表明,TIGM在这些数据集上的跟踪性能优于其他基于Transformer的跟踪方法。特别是在处理长视频序列时,TIGM能够有效减少计算负担,同时保持较高的跟踪精度。这表明,基于SSM的HP生成方法在资源受限的环境中具有更强的适应性。此外,实验还显示,TIGM在应对目标外观变化、背景干扰和遮挡等复杂情况时表现出色,证明了其在VOT任务中的有效性。

总的来说,本文的主要创新点包括以下几个方面:首先,提出了一种有效的利用时间信息的方法,通过将目标特征与历史状态进行匹配,提高模型对目标外观变化的鲁棒性;其次,开发了一种基于SSM的历史信息生成模块,能够有效捕捉目标的时间信息并优化历史提示;最后,设计了一个特征增强模块,通过通道和空间注意力机制优化目标特征,提高跟踪的准确性。这些创新使得TIGM在VOT任务中表现出色,为未来的研究提供了新的思路和方法。

此外,本文还探讨了历史提示生成的不同策略。例如,一些方法在目标特征提取过程中通过Transformer编码器来更新历史提示,另一些方法则使用额外的Transformer解码器来进行专门的历史提示优化。而本文则选择使用SSM作为解码器,通过其强大的状态表示能力,实现对历史信息的有效整合和传播。这种方法不仅减少了计算负担,还提高了模型对长期序列数据的处理能力,使得跟踪过程更加高效和稳定。

在实际应用中,VOT技术已经被广泛应用于智能监控、自动驾驶和热红外目标跟踪等领域。例如,在智能监控系统中,VOT能够帮助监控设备在复杂的环境中准确识别和跟踪目标,提高监控的效率和安全性。在自动驾驶系统中,VOT能够帮助车辆在动态的交通环境中识别行人、车辆和其他障碍物,提高驾驶的安全性。而在热红外目标跟踪中,VOT能够帮助在恶劣天气条件下准确识别目标,提高系统的可靠性。

因此,本文提出的方法TIGM不仅在理论上具有创新性,而且在实际应用中也具有重要的价值。通过结合SSM和FEM,TIGM能够在资源受限的环境中实现高效的跟踪性能,同时保持较高的准确性。这为未来的研究提供了新的方向,也为实际应用中的VOT系统提供了更优的解决方案。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号