《Pattern Recognition》:DecoderTracker: Decoder-Only End-To-End method for Multiple-Object Tracking
编辑推荐:
多目标跟踪领域提出解码器-only架构的DecoderTracker及优化版本FixDT,通过移除冗余编码器、轻量化特征网络和固定查询内存设计,显著提升推理速度(2-3倍)并保持性能,采用弱监督训练策略缩短训练时间。
Pan Liao|Feng Yang|Di Wu|Wenhui Zhao|Jinwen Yu|Dingwen Zhang
西北工业大学自动化学院,中国陕西省西安市710072
摘要
仅解码器的Transformer架构(如GPT)在许多领域表现出比传统的编码器-解码器结构Transformer方法更优越的性能。多年来,基于传统Transformer结构的端到端方法(如MOTR)在多目标跟踪方面取得了显著成果。然而,这些方法由于动态数据处理的固有计算成本和优化挑战,导致推理速度不佳且训练时间过长。为了解决上述问题,本文优化了网络架构,并提出了一种有效的训练策略,以减少训练时间,从而开发出了DecoderTracker这一新型端到端跟踪方法。随后,为了应对动态数据带来的优化挑战,本文通过引入固定大小查询内存(Fixed-Size Query Memory)并改进某些注意力层,提出了FixDT。我们的方法在多个基准测试中的表现优于MOTR,且无需复杂的启发式组件,推理速度分别快2到3倍。所提出的方法已实现为开源代码,可在
https://github.com/liaopan-lp/MO-YOLO获取。
引言
多目标跟踪(MOT)是视频分析领域的一项关键任务,其主要目标是推断和预测连续图像序列中对象的运动轨迹。近年来,Transformer方法在各个领域的成功已得到充分证明,基于Transformer的端到端MOT方法(如MOTR [2]和MOTIP [3])最近被引入到MOT领域。这些方法相比广泛使用的基于检测的跟踪(TBD)方法[4]、[5]、[6]、[7]具有优势,例如无需手动设计或特征选择。其中,基于查询跟踪(Tracking-by-Query, TBQ)范式的MOTR系列方法通过将对象查询扩展为跟踪查询,并在帧间传播这些查询来实现跟踪。这类方法具有出色的可扩展性,其核心思想经常被应用于3D检测[8]、实例分割[9]和3D重建[10]等多个领域。相比之下,目前准确率更高的另一种端到端MOT方法MOTIP [3]在这方面稍显不足。其跟踪机制更类似于TBD方法,不同之处在于其检测和跟踪网络在训练过程中是联合优化的。因此,深入研究TBQ方法不仅将显著推动MOT技术的发展,还对提高MOT的效率和通用性具有重要意义。
然而,这些TBQ方法的推理速度往往不尽如人意。它们类似RNN的线性推理结构使得训练过程中对GPU的利用效率较低,而且这种线性训练范式也使得通常用于检测任务的数据增强技术无法应用。深入分析后发现,TBQ的核心机制是由解码器完成的,通过查询传播和注意力交互来建模对象轨迹和时间相关性,而编码器仅负责静态图像特征提取,对动态跟踪的核心逻辑贡献较小。
受到仅解码器模型在序列任务(例如GPT [11])中成功的启发,我们旨在消除编码器-解码器交互中存在的冗余计算。尽管我们的任务与语言建模不同,但去除编码器所带来的效率提升仍然非常相关。在大多数端到端MOT方法的基础Deformable-DETR [12]中观察到严重的不平衡:编码器占GFLOPs的49%,但对AP的贡献仅为11%。这引发了这样一个问题:在MOTR中,庞大的Transformer编码器是否同样冗余。为了解决这个问题,我们提出了DecoderTracker。需要明确的是,我们使用“仅解码器”这一术语是为了特指Transformer模块:与MOTR不同,我们的框架保留了用于视觉特征提取的CNN骨干网络,但完全去除了Transformer编码器,直接将骨干网络连接到Transformer解码器。通过将计算资源集中在解码器上——这一对时间建模至关重要的组件上,我们为显著提高推理速度和训练效率奠定了基础。此外,在训练范式方面,我们质疑了持续强监督的必要性。受到计算机视觉中弱监督[14]、[15]成功的启发,我们引入了跟踪框选择过程(Tracking Box Selection Process, TBSP)以促进高效预训练。因此,DecoderTracker在推理速度和性能上均优于以往的方法,如图1所示。
尽管进行了这些架构优化,但实证观察显示,虽然训练时间显著缩短,但推理速度并未如预期那样提高。这一现象促使我们进一步深入研究。理论上,简化网络架构应该更显著地提升推理速度而非训练效率。为了调查这一异常现象,我们系统分析了各个模块的时间消耗分布。结果发现,解码器模块占据了大部分时间,消耗了模型总推理时间的近三分之二,这是不合理的。通过进一步的跨模型比较分析,我们发现MOTR中也存在这一问题,但其基础模型Deformable DETR则没有。控制变量实验表明,固定查询数量可以显著降低解码器延迟。考虑到GPU内存使用等因素,我们最终确定根本原因是动态查询机制。这种机制在推理过程中引入了不必要的开销,例如在现代深度学习框架(如PyTorch/TensorFlow)中导致GPU内存分配效率低下,并可能阻碍编译优化(如操作符融合)。为了解决这个问题,我们提出了固定大小查询内存(Fixed-Size Query Memory, FSQM)来处理固定查询跟踪。通过整合FSQM并优化原始解码器和TAN模块中的注意力层,我们开发了FixDT(固定查询解码器器)。实验结果表明,尽管FixDT在计算负载上有所增加,但由于静态数据处理,其推理速度显著快于原始版本(从19.6 fps提升到28.8 fps),同时保持了相当的跟踪性能。
总结来说,本文的贡献如下:
1)主要贡献是开发了一种新型端到端跟踪网络DecoderTracker,这是一种仅使用解码器的方法。与MOTR相比,该网络实现了更快的推理速度和更好的跟踪性能。
2)第二个关键创新是引入了一种独特的训练策略,该策略分为三个阶段。同时,我们采用了TBSP,这是一种为端到端MOT方法的初步训练设计的弱监督训练策略。这些策略通过提高训练过程的效率,加速了方法的收敛速度并减少了总体训练时间。
3)最后,通过利用FSQM并优化网络中的某些自注意力层,我们开发了FixDT,解决了由动态数据引起的额外延迟问题。这为类似MOTR的端到端MOT模型的工程部署提供了一条可行的技术路径。
部分摘录
MOTR系列
与SORT [4]、[16]等基于检测的跟踪方法和之前的基于Transformer的MOT方法[17]、[18]不同,MOTR [2]是第一个实现端到端多目标跟踪的方法。它将DETR [19]中的对象查询扩展为跟踪查询,从而具备了跟踪能力。它使用可学习的位置嵌入和多尺度可变形注意力来预测帧中的对象位置和类别,无需显式的数据关联或后处理。
提出方法的架构
DecoderTracker和FixDT的总体架构如图2所示。输入视频的每一帧都被送入特征提取网络(FENet)以获得多尺度特征图。对于第一帧(没有可用的跟踪信息),一个固定长度的可学习检测查询(图中称为qd)被输入到解码器中。对于视频序列中的后续帧,使用前一帧的跟踪查询和可学习的检测结果
数据集和指标
数据集:为了验证DecoderTracker和DecoderTracker+的性能,我们在三个具有挑战性的数据集上进行了评估:DanceTrack [38]、MOT17 [39]和KITTI [40]。DanceTrack是一个用于人类跟踪的庞大数据集,涵盖了遮挡、频繁交叉、外观统一和动作多样的场景。该数据集包含100个不同舞蹈风格的视频,突显了运动分析在多目标跟踪中的重要性。MOT17专注于跟踪
结论与局限性
本文介绍了DecoderTracker及其改进版本FixDT,这两种基于仅解码器架构的新型端到端MOT方法,旨在解决传统基于Transformer的端到端MOT方法(如MOTR)中存在的计算资源消耗高、推理速度不佳和训练时间过长的问题。DecoderTracker通过去除冗余的Transformer编码器并采用源自YOLOv8的轻量级FENet来优化网络架构,从而提高了性能
CRediT作者贡献声明
Pan Liao:撰写 – 审稿与编辑,撰写 – 原始草稿,软件实现,方法论,形式化分析。Feng Yang:撰写 – 审稿与编辑,撰写 – 原始草稿,监督。Di Wu:可视化,方法论。Wenhui Zhao:撰写 – 审稿与编辑,数据整理。Jinwen Yu:软件实现,数据整理。Dingwen Zhang:撰写 – 审稿与编辑。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。