一种基于稀疏检测变换器(Sparse Detection Transformer)的新多目标跟踪算法

《Engineering Applications of Artificial Intelligence》:A new multi-object tracking algorithm based on Sparse Detection Transformer

【字体: 时间:2025年10月24日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  多目标跟踪效率优化方法研究,提出基于稀疏Transformer检测与改进EKF+的TBD框架,实现75.4% MOTA和44.5 FPS平衡,创新性去除ReID模块并融合ByteTrack二次关联,有效解决复杂场景下计算效率与跟踪精度矛盾。

  多目标跟踪(Multi-Object Tracking, MOT)在智能监控和自动驾驶等应用场景中扮演着至关重要的角色。随着人工智能技术的不断进步,基于深度学习的MOT方法在识别和追踪能力上取得了显著进展。然而,当前基于Transformer的MOT方法虽然在特征建模方面表现出色,但通常面临计算复杂度过高和实时性不足的问题,这在一定程度上限制了其在实际场景中的应用。为了解决这一难题,本文提出了一种名为SparseDeTrack的高效多目标跟踪框架,该框架基于跟踪-检测(Tracking-by-Detection, TBD)范式,旨在在提升跟踪性能的同时,优化计算效率。

在检测阶段,SparseDeTrack采用了一种稀疏注意力机制的Transformer检测器(Sparse DETR),其保留了30%的token,从而有效降低了计算成本,同时保留了关键的物体特征。这一设计在保持检测精度的同时,显著减少了模型的资源消耗,为后续的跟踪阶段提供了高效的输入。传统的检测方法往往依赖于复杂的模型结构和大量参数,而Sparse DETR通过精简token的使用,实现了对检测任务的优化,同时保持了良好的性能表现。

在跟踪阶段,SparseDeTrack摒弃了传统的Re-Identification(ReID)模块,转而采用改进的扩展卡尔曼滤波器(Extended Kalman Filter, EKF)。通过重新设计状态向量,该方法直接预测了目标的宽度和高度,而不是使用长宽比。这一调整不仅提高了目标定位的准确性,还增强了模型对复杂运动模式的建模能力。传统的EKF在处理非线性运动时存在一定的局限性,而SparseDeTrack通过优化预测机制,使得轨迹预测更加稳定和高效。此外,为了进一步提升在遮挡情况下的跟踪鲁棒性,本文引入了ByteTrack的二次关联策略,该策略能够有效减少轨迹断裂,提高跟踪的连续性和准确性。

为了验证SparseDeTrack的有效性,本文在多个标准数据集上进行了广泛的实验,包括MOTChallenge 17(MOT17)、MOTChallenge 20(MOT20)以及DanceTrack。在MOT17测试集上,SparseDeTrack取得了75.4的Multiple Object Tracking Accuracy(MOTA),这一成绩优于基于Transformer的其他方法,如MOTR、Trackformer和TransTrack,分别高出2.0、1.3和0.2个点。同时,该方法的推理速度达到了44.5帧每秒(FPS),显著优于大多数现有算法。在密集场景的MOT20数据集上,SparseDeTrack实现了最佳的False Negative(FN)分数,并在Identity Switches(IDs)方面表现出色,这表明其在目标身份保持方面具有较强的能力。在DanceTrack数据集上,该方法取得了89.1的MOTA,这一成绩接近主流的卷积神经网络(CNN)方法,进一步验证了其在复杂运动场景中的适用性。

除了在性能上的优势,本文还通过大量的消融实验验证了各个组件的有效性。这些实验不仅帮助确认了SparseDeTrack在不同场景下的表现,还揭示了各个设计决策对最终结果的影响。例如,通过调整token保留率,可以有效平衡检测精度和计算效率;而改进的EKF和ByteTrack的结合则显著提升了跟踪的鲁棒性。这些结果表明,SparseDeTrack在保持高精度的同时,也具备良好的实时性,能够在复杂场景中实现稳定的目标跟踪。

本文的主要贡献包括以下几个方面:首先,提出了一种基于稀疏token Transformer的多目标跟踪方法。这是首次将Sparse DETR引入到MOT领域,通过其稀疏token机制,实现了对检测和跟踪的高效整合。通过实证分析,确定保留30%的token能够达到最佳的性能与计算效率的平衡,从而有效解决了传统基于Transformer的跟踪方法在密集场景中计算复杂度过高的问题。其次,引入了一种改进的扩展卡尔曼滤波器轨迹预测机制(EKF+)。通过重新设计状态向量,直接预测目标的宽度和高度,而不是使用长宽比,使得目标定位更加准确,并增强了模型对复杂运动模式的建模能力。第三,设计了一种基于纯运动特征的分层关联策略。该策略消除了对基于外观特征的ReID模块的依赖,通过结合改进的EKF预测和ByteTrack的二次关联,克服了外观模型在复杂环境中的泛化能力不足的问题。此外,引入低置信度检测的机制,有助于减少轨迹断裂,提高MOTA的同时保持推理速度。最后,实现了在多目标跟踪任务中精度与实时性的良好平衡。SparseDeTrack在MOT17测试集上取得了75.4的MOTA,这是所有基于Transformer的方法中最高的成绩,分别超过了MOTR和Trackformer 2.0和1.3个点,同时推理速度达到了44.5 FPS。在MOT20和DanceTrack数据集上,该方法也表现出良好的性能,进一步验证了其在实际应用场景中的价值。

在实际应用中,多目标跟踪技术对于智能监控和自动驾驶系统的可靠运行至关重要。然而,当前基于Transformer的MOT方法在处理复杂场景时往往面临计算复杂度过高和实时性不足的问题。为了解决这一问题,本文提出的SparseDeTrack框架通过优化检测和跟踪的各个阶段,实现了对传统方法的改进。首先,在检测阶段,Sparse DETR通过保留30%的token,显著降低了计算成本,同时保持了关键的物体特征。这一设计使得检测过程更加高效,为后续的跟踪提供了高质量的输入。其次,在跟踪阶段,SparseDeTrack摒弃了传统的ReID模块,转而采用改进的EKF进行轨迹预测。通过直接预测目标的宽度和高度,而不是使用长宽比,该方法提高了目标定位的准确性,并增强了对复杂运动模式的建模能力。此外,结合ByteTrack的二次关联策略,进一步提升了在遮挡情况下的跟踪鲁棒性,减少了轨迹断裂的可能性,从而提高了MOTA。

实验结果表明,SparseDeTrack在多个标准数据集上均表现出色。在MOT17测试集上,该方法取得了75.4的MOTA,这一成绩优于基于Transformer的其他方法,如MOTR、Trackformer和TransTrack。同时,其推理速度达到了44.5 FPS,显著优于大多数现有算法。在MOT20数据集上,SparseDeTrack实现了最佳的FN分数,并在IDs方面表现出色,这表明其在目标身份保持方面具有较强的能力。在DanceTrack数据集上,该方法取得了89.1的MOTA,这一成绩接近主流的CNN方法,进一步验证了其在复杂运动场景中的适用性。这些结果表明,SparseDeTrack在保持高精度的同时,也具备良好的实时性,能够在复杂场景中实现稳定的目标跟踪。

尽管SparseDeTrack在多目标跟踪任务中取得了显著的进展,但仍存在一些局限性。例如,在MOT17和MOT20数据集上,其MOTA成绩略逊于使用CNN检测器(如YOLOX)的方法。这是由于基于Transformer的检测器在密集场景和小目标检测方面存在一定的性能差距。虽然30%的token稀疏化策略有效降低了计算复杂度,但也导致了部分特征的丢失,可能在某些情况下影响检测的准确性。因此,在未来的研究中,需要进一步探索如何在保持检测精度的同时,优化计算效率,以实现更广泛的应用。

综上所述,本文提出的SparseDeTrack框架在多目标跟踪领域具有重要的研究价值和应用前景。通过优化检测和跟踪的各个阶段,该方法在保持高精度的同时,显著提升了计算效率,使得在复杂场景下的实时目标跟踪成为可能。未来的研究可以进一步探索如何在不同场景下优化模型的结构和参数,以实现更广泛的适用性和更高的性能。此外,还可以结合其他先进的技术,如长期记忆模块或时间特征融合策略,以进一步提升跟踪的鲁棒性和准确性。总之,SparseDeTrack为多目标跟踪技术的发展提供了一种新的思路,有望在智能监控和自动驾驶等实际应用中发挥重要作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号