
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:目标跟踪:深度与传统方法的全面调研
【字体: 大 中 小 】 时间:2025年09月12日 来源:ARCHIVES OF COMPUTATIONAL METHODS IN ENGINEERING 12.1
编辑推荐:
本综述系统梳理了视觉目标跟踪(VOT)领域的发展脉络,全面涵盖RGB、热红外(TIR)、深度(D)、事件(E)等多模态数据,详细评述了64个数据集、216种跟踪器(含深度学习与传统方法)及评估标准,为研究者提供了跨模态跟踪技术的全景式参考指南。
视觉目标跟踪(Visual Object Tracking, VOT)作为机器视觉领域的核心课题,致力于通过初始目标描述在视频序列中持续定位单个或多个目标。近十年来,跟踪器研发已成为推动该领域发展的关键驱动力。开发者在实施现有跟踪器或提出新方案前,需全面掌握数据集特性、跟踪器原理、评估协议及不同跟踪器的性能对比。尽管已有部分综述文献,但始终缺乏覆盖全领域的权威参考。本文首次实现了对RGB、热红外(TIR/T)、深度(D)、事件(E)及其融合模态(RGB-T、RGB-D、RGB-E)的完整技术版图构建。
研究团队基于学界使用度筛选出64个具有代表性的单目标跟踪(SOT)与多目标跟踪(MOT)数据集,包括热红外专用数据集5个、RGB模态35个、深度专用1个、RGB-T融合11个、RGB-D融合9个以及新兴的RGB-E事件相机数据集6个。这些数据集涵盖了光照变化、遮挡、快速运动等复杂场景,为不同模态算法的训练与验证提供了坚实基础。
本文系统归纳了SOT与MOT的全部评估准则,包括精确度图(Precision Plot)、成功率图(Success Plot)、多目标跟踪准确度(MOTA)、识别F1分数(IDF1)等核心指标。通过标准化评估框架,研究者可客观衡量跟踪器在边界框重合度、轨迹连续性、身份保持等方面的性能表现。
216个跟踪器根据核心技术被划分为深度学习与传统方法两大类别,其中热红外专用11个、RGB模态126个、RGB-T融合35个、RGB-D融合27个、RGB-E事件流12个以及深度专用5个。深度学习跟踪器主要基于卷积神经网络(CNN)、循环神经网络(RNN)和孪生网络架构,而传统方法则依赖相关滤波、粒子滤波等经典算法。跨模态对比分析揭示了RGB-T跟踪器在热辐射感知场景的鲁棒性,RGB-D跟踪器在三维空间定位的优势,以及事件相机在高速运动捕获方面的突破性表现。
研究指出传统相关滤波方法正逐渐被端到端深度学习模型取代,多模态融合成为应对复杂环境的新范式。热红外与RGB的互补性有效解决了夜间跟踪难题,深度信息增强了尺度估计能力,而事件相机则开辟了微秒级延迟跟踪的新方向。本文同时提供了所有数据集与跟踪器的访问链接,极大便利了后续研究工作的开展。
尽管现有跟踪器在特定模态已取得显著进展,但跨模态泛化能力、实时性与精度的平衡、长期跟踪中的漂移问题仍是待突破的关键挑战。未来研究需关注自监督学习在跨模态数据中的应用、轻量化模型部署以及面向嵌入式设备的优化方案。
生物通微信公众号
知名企业招聘