QB-MOTR：一种基于Transformer的简单查询引导式端到端多目标跟踪方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computer Vision and Image Understanding》：QB-MOTR: A simple query bootstrapping end-to-end multi-object tracking method with transformer

【字体：大中小】 时间：2026年02月19日 来源：Computer Vision and Image Understanding 3.5

编辑推荐：

　　多目标跟踪方法QB-MOTR通过Query Bootstrapping模块整合位置和语义信息，解决检测与关联的语义冲突，无需额外检测器或参数调整，在DanceTrack等数据集上性能超越基线MOTR约18.1%及SOTA方法MeMOTR。

韩子凡|张旭忠|王航|孙宏斌

中国西安交通大学人工智能与机器人研究所人机混合增强智能国家重点实验室，西安，710049

摘要

基于查询的跟踪（MOT）方法旨在以端到端的方式简化传统基于检测的跟踪方法中复杂且繁琐的后处理流程。然而，由于联合训练过程中跟踪实例和检测实例之间的语义模糊性，前者通常会面临检测与关联之间的冲突，从而导致性能不如后者。以往的基于查询的跟踪方法通常使用额外的检测器来分离检测和关联任务。但这些方法不可避免地引入了复杂的操作，如额外的检测器或手动超参数调整。在本文中，我们提出了一种简单的端到端多目标跟踪方法——Query Boostarpping Multi-Object Tracking with Transformer（简称QB-MOTR），以缓解这一冲突。具体来说，我们设计了一个查询增强模块，用于增强跟踪查询的语义特征，以便区分检测实例和跟踪实例。该模块将位置信息和特定语义信息有效地整合到跟踪器中，同时保持整个网络的简单性。我们在多个数据集上评估了各种MOT网络的跟踪性能。评估结果表明，QB-MOTR的性能比基线方法MOTR提高了约18.1%。此外，其检测和关联性能也优于最先进的端到端方法MeMOTR，且训练和推理流程更为简单。

引言

随着自动驾驶和机器人导航的广泛应用（Geiger等人，2013年；Yu等人，2020年；Maddern等人，2020年；Ramanishka等人，2018年），多目标跟踪（MOT）（Zeng等人，2022年；Cai等人，2022年；Gao和Wang，2023年；Yu等人，2023年；Zhang等人，2023年；Bewley等人，2016年；Wojke等人，2017年；Cao等人，2023年；Sun等人，2020年）在学术界和工业界受到了广泛关注。多目标跟踪方法通常需要在跟踪现有对象的同时检测新出现的特定对象（见图1）。

过去，MOT方法（Cai等人，2022年；Bewley等人，2016年；Wojke等人，2017年；Cao等人，2023年；Yan等人，2022年；Zhang等人，2021年；Zhou等人，2020年；Huang等人，2023年；Li等人，2023年；Saada等人，2022年；Wang等人，2022年）通常采用基于检测的跟踪范式，即首先通过检测模块获取对象实例，然后通过外观相似性和运动预测来关联这些实例。然而，这些方法依赖于复杂且繁琐的后处理过程，需要手动调整参数才能获得满意的结果。

随着DETR（Carion等人，2020年）的出现，提供了一种新的端到端对象检测解决方案。它提供了一个简单的基线框架，仅包括编码器、解码器和头模块。DETR的迷人优势在于无需手动后处理（如非最大值抑制（NMS）即可保持良好的性能。近年来，通过对DETR的深入研究（Carion等人，2020年），许多研究人员在端到端多目标跟踪方法方面取得了显著进展（Zeng等人，2022年；Cai等人，2022年；Gao和Wang，2023年；Yu等人，2023年；Zhang等人，2023年；Sun等人，2020年；Meinhardt等人，2022年）。在这些方法中，MOTR（Zeng等人，2022年）作为首个基于DETR（Carion等人，2020年）构建的完全端到端多目标跟踪框架而脱颖而出，并被广泛认为是端到端多目标跟踪的基线方法。与DETR（Carion等人，2020年）类似，MOTR（Zeng等人，2022）也使用查询来表示单个对象实例。此外，MOTR（Zeng等人，2022）将查询分为检测和跟踪两部分，这两部分都是从上一帧的检测查询中生成的。然而，将分离的检测和跟踪查询共同训练会导致检测与关联之间的冲突。DETR中的可学习检测查询类似于具有较少语义信息的学习锚点，而跟踪查询则具有特定对象的具体语义知识，用于确定它们的类别和边界框。因此，新检测到的对象的检测查询结果与同一对象的跟踪查询结果可能在自注意力结构中导致语义模糊，从而导致检测和关联精度降低。为了解决这个问题，人们做了很多尝试。例如，MeMOTR（Gao和Wang，2023年）首先设计了一个额外的检测解码器来生成相应的检测嵌入。将其与跟踪查询连接成联合查询后，联合解码器专注于关联任务。MOTRv2（Zhang等人，2023年）利用YOLOX（Ge等人，2021年）生成的额外提议作为检测查询的一部分，这大大增强了检测能力，并使整个流程更注重关联任务，从而获得了令人满意的关联性能。尽管MeMOTR（Gao和Wang，2023年）和MOTRv2（Zhang等人，2023）在各种基准测试中表现出色，但这些方法往往会增加整体流程的复杂性。特别是MOTRv2（Zhang等人，2023）在训练和推理过程中引入了由鲁棒检测器生成的额外提议，从而影响了其端到端的特性。MeMOTR（Gao和Wang，2023）还需要手动优化不同数据集的跟踪查询更新模块中的内存更新比例。

在本文中，我们提出了一种简单的端到端多目标跟踪方法，称为Query Boostarpping Multi-Object Tracking with Transformer（简称QB-MOTR）。与以往的方法不同，我们认为增强跟踪查询的外观区分能力是缓解检测与跟踪查询之间冲突的另一种选择。为此，我们提出了一个包含两个部分的查询增强模块：提议编码和重新定位编码。这两个组件通过残差连接结合在一起，并集成在MOTR的视觉编码器和Transformer解码器之间。具体而言，前者（提议编码）旨在获取上一帧中特定实例的位置嵌入。位置嵌入表明了特定实例在帧中的感兴趣区域。后者（重新定位编码）旨在为跟踪查询提供特定的语义知识，从而帮助跟踪器区分现有的跟踪对象和新检测到的对象，同时提高检测能力。

我们在常用的数据集（如Dancetrack（Sun等人，2022年）和SportsMOT（Cui等人，0000年）上评估了我们的方法。在这些基准测试中，QB-MOTR在没有引入MOTRv2（Zhang等人，2023）中的额外检测器或MeMOTR（Gao和Wang，2023）中的手动超参数调整等复杂性的情况下，取得了最佳或竞争性的性能。具体而言，QB-MOTR相对于基线模型MOTR，在HOTA、AssA和IDF1指标上分别提高了18.1%、29%和27.8%，并且也超过了最佳的端到端方法MeMOTR。

总结来说，我们的工作贡献如下：

我们设计了一个简单的查询增强模块，以增强跟踪查询的外观区分能力，从而缓解检测与跟踪查询之间的冲突。
我们提出的方法是一个端到端框架，无需引入额外的检测器或手动超参数调整等复杂操作。
广泛的实验和消融研究表明，所提出的QB-MOTR在各种数据集上取得了最佳或竞争性的结果。

本文的其余部分安排如下：第2节简要回顾了基于检测和基于查询的跟踪方法的相关工作。第3节介绍了查询增强模块的详细框架。第4节评估了所提出的多目标跟踪方法的有效性。第5节总结了进一步的讨论和结论。

章节片段

基于检测的跟踪

多目标跟踪是最流行的基于帧的视频理解研究主题之一（Zhao等人，2023年）。基于检测的跟踪是一种广泛使用的范式，具有简洁的架构、出色的性能和低延迟。这些方法（Cai等人，2022年；Bewley等人，2016年；Wojke等人，2017年；Cao等人，2023年；Yan等人，2022年；Zhang等人，2021年；Zhou等人，2020年；Wu等人，2021年；Zhang等人，2022年；Zhou等人，2022年；Fischer等人，2023年；Yang等人）

概述

我们提出了一种简单的多目标跟踪方法QB-MOTR，即Query Boostarpping Multi-Object Tracking with Transformer。现有方法通常使用额外的检测器生成检测嵌入作为检测查询，使跟踪器专注于关联任务。相比之下，我们的核心贡献是构建了一个增强跟踪查询外观区分能力的增强模块。

如图2所示，我们的QB-MOTR使用视觉编码器提取多尺度特征

数据集和指标

数据集。我们主要在DanceTrack（Sun等人，2022年）数据集上评估QB-MOTR，因为与传统的MOT数据集（如MOT17（Milan等人，2016年）相比，它对关联提出了更大的挑战。作为评估过程的一部分，我们还在SportsMOT（Cui等人，0000年）和MOT17（Milan等人，2016年）上评估了QB-MOTR的性能。

指标。我们采用了当前流行的多目标跟踪评估指标——Higher Order Metric for Evaluating Multi-Object Tracking（HOTA（Luiten等人，2021年）来评估我们的方法

结论与未来工作

本研究关注了联合训练过程中跟踪实例和检测实例之间的语义模糊性导致的冲突。特别是，我们提出了一个查询增强模块，将特定的语义和位置信息引入跟踪查询中，以在更简单的训练和推理流程中区分检测实例和跟踪实例。根据在Dancetrack和SportsMOT基准测试上的广泛评估，所提出的QB-MOTR

CRediT作者贡献声明

韩子凡：软件、资源、方法论、形式分析、数据整理、概念化。张旭忠：概念化。王航：概念化。孙宏斌：概念化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作部分得到了国家自然科学基金（U24A20291）、中国博士后科学基金（2025M770535）和中央高校基本科研业务费（xzy012024068）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言