FocusTrack:提升对小型且难以识别物体的检测与跟踪能力
《Journal of Visual Communication and Image Representation》:FocusTrack: Enhancing object detection and tracking for small and ambiguous objects
【字体:
大
中
小
】
时间:2025年08月09日
来源:Journal of Visual Communication and Image Representation 3.1
编辑推荐:
多目标跟踪技术通过改进检测与关联模块,有效提升小目标、遮挡场景下的跟踪性能,在MOT17/MOT20数据集上HOTA达66.91且MOTA达82.32。
在当今快速发展的计算机视觉领域,多目标跟踪(Multi-Object Tracking, MOT)已成为一个至关重要的研究方向。MOT不仅仅是对图像或视频中多个目标进行识别,更重要的是要将这些目标在时间序列上进行连续的关联,从而形成稳定的轨迹。随着自动驾驶、智能安防、体育赛事分析等应用场景的不断拓展,MOT技术在实际应用中的需求也日益增加。然而,尽管近年来在这一领域取得了诸多进展,MOT仍然面临着诸多挑战,尤其是在复杂、拥挤的环境中,如何准确地检测和跟踪小目标、模糊目标以及被遮挡的目标,成为亟待解决的问题。
在实际的视觉任务中,目标的检测和跟踪并非孤立进行的,而是需要紧密配合。检测模块负责识别当前帧中的目标,而跟踪模块则需要将这些检测结果与前一帧或后续帧中的目标进行匹配,以确保轨迹的连续性和一致性。在这一过程中,许多关键因素会影响跟踪的准确性,包括目标的大小、遮挡情况、运动模式以及背景的复杂性等。因此,构建一个既能高效检测目标,又能精准进行轨迹关联的系统,成为MOT研究的核心目标。
针对上述问题,研究人员提出了多种解决方案,其中,基于检测的跟踪(Detection-Based Tracking, TBD)和联合检测与跟踪(Joint Detection and Tracking, JDT)是最常见的两种方法。TBD方法将检测和跟踪分开处理,首先完成目标检测,再根据检测结果进行轨迹关联。这种方法的优势在于可以利用成熟的检测算法,如YOLO系列、Faster R-CNN等,从而在复杂场景中实现较高的检测精度。然而,TBD方法在处理遮挡、运动模糊等问题时,往往会出现跟踪中断或误匹配的情况。相比之下,JDT方法则尝试将检测和跟踪过程结合起来,通过同时优化检测和关联,提高整体系统的鲁棒性。尽管JDT方法在某些情况下表现优异,但由于其计算复杂度较高,难以满足实时性要求。
为了克服这些限制,许多研究者开始探索更加高效和稳定的跟踪方法。其中,BoostTrack++和BoT-SORT等在线跟踪器在MOT领域取得了显著成果。BoostTrack++通过引入软缓冲IoU(Soft Buffered IoU, S-BIoU)和软置信度提升(Soft Confidence Boost)等机制,提高了跟踪的稳定性,尤其在处理低置信度检测和遮挡情况时表现突出。而BoT-SORT则采用了一种基于卡尔曼滤波和匈牙利算法的跟踪框架,能够在保持较高跟踪效率的同时,实现较好的轨迹连续性。然而,这些方法在处理小目标、模糊目标以及高度遮挡的场景时,仍然存在一定的局限性。例如,在密集人群或复杂背景下,由于目标之间的重叠程度较高,传统的IoU匹配方法容易产生误匹配,从而导致轨迹碎片化或身份切换的问题。
针对这些问题,研究人员提出了多种改进策略。例如,通过引入更精细的特征提取方法,提高对小目标的检测能力;通过优化相似性矩阵,增强目标之间的关联精度;通过改进置信度评估机制,减少误检和漏检的影响。此外,一些方法还尝试利用时空信息来优化跟踪过程,例如通过分析目标的运动模式和空间分布,提高轨迹预测的准确性。这些改进措施在一定程度上提升了MOT系统的性能,但在面对极端复杂或高度动态的场景时,仍然存在提升空间。
为了进一步提升MOT的性能,特别是针对小目标和模糊目标的检测与跟踪,研究人员提出了FocusTrack这一创新的单阶段多目标跟踪系统。FocusTrack的设计理念是通过优化检测和关联过程,实现对复杂场景的高效处理。具体来说,FocusTrack首先对YOLOv10这一高性能检测器进行微调,使其能够更好地适应MOT任务的需求。YOLOv10作为当前最先进的检测算法之一,具备较高的检测速度和精度,能够满足实时跟踪的要求。通过在多个数据集上进行训练,FocusTrack能够有效提升对小目标和远距离目标的检测能力,从而减少因检测失败而导致的跟踪中断。
在轨迹关联方面,FocusTrack引入了多种关键模块,以提高关联的准确性和鲁棒性。其中,Modified Soft Buffered IoU(MS-BIoU)模块通过结合目标的检测置信度和尺寸信息,优化了传统的IoU匹配方法。这一改进使得FocusTrack在处理小目标和模糊目标时,能够更精确地匹配检测结果与轨迹,从而减少误匹配的发生。此外,Adaptive Similarity Enhancement(ASE)模块通过动态调整相似性矩阵,考虑了遮挡程度、运动模式和目标尺寸等因素,进一步提高了关联的稳定性。在拥挤环境中,目标之间的相似性较高,容易导致身份切换或轨迹断裂,而ASE模块能够通过调整相似性权重,有效缓解这一问题。
Spatial-Temporal Confidence Enhancement(STCE)模块则专注于提升检测的置信度,通过结合空间重叠、运动模式和人群密度等因素,动态优化检测结果的可靠性。这一模块的引入使得FocusTrack能够在复杂背景下,更准确地判断目标的运动轨迹,从而减少因背景干扰或目标重叠导致的跟踪错误。与此同时,Track Recovery and Association Refinement(TRAR)模块通过基于速度的提议和精细化的关联策略,恢复因检测失败而丢失的轨迹。这一方法不仅提高了轨迹的连续性,还增强了系统在面对频繁检测失败时的鲁棒性。
为了进一步提升跟踪的稳定性,FocusTrack还引入了SV-Link模块,该模块通过考虑目标的运动特性,增强了轨迹之间的关联能力,特别是在遮挡和运动模糊的场景中表现尤为突出。此外,SOTS(Spatial-Temporal Optimization for Trajectories)模块利用高斯过程回归(Gaussian Process Regression)技术,针对目标的尺寸和遮挡强度进行轨迹优化,从而实现更精确的运动预测和轨迹重建。这些模块的协同作用,使得FocusTrack能够在复杂场景中保持较高的跟踪精度和稳定性。
在实验评估方面,FocusTrack在MOT17和MOT20这两个具有挑战性的基准数据集上进行了测试。MOT17数据集包含由固定和移动摄像头拍摄的行人视频,涵盖7个训练序列和5316帧,测试集则包含5919帧。MOT20数据集则包含8个在拥挤环境中拍摄的行人视频,采样率为25 FPS,训练集包含4个序列,共计8931帧。通过在这些数据集上的测试,FocusTrack在HOTA(Highest Overlap Tracking Accuracy)指标上分别达到了66.91和66.5,MOTA(Multiple Object Tracking Accuracy)指标上分别达到了82.32和77.9,IDF1(Identity Recall and F1 Score)指标上分别达到了82.96和82.1。这些结果不仅超过了BoostTrack++和BoT-SORT等当前主流的在线跟踪器,也证明了FocusTrack在复杂场景中的优越性。
从实际应用的角度来看,FocusTrack的优势在于其高效的检测和关联机制,以及对复杂环境的适应能力。在密集人群、快速移动或光照变化较大的场景中,FocusTrack能够更准确地检测和跟踪目标,减少因检测失败或误匹配而导致的轨迹中断。此外,FocusTrack的轻量化设计使其能够在嵌入式设备或移动平台上运行,满足实际应用中对计算资源的限制。这一特性对于自动驾驶、智能监控等需要实时处理的应用尤为重要。
除了在性能上的提升,FocusTrack还在算法设计上进行了多项创新。例如,通过使用copy-paste数据增强技术,FocusTrack能够在训练过程中更好地模拟小目标和远距离目标的检测场景,从而提高模型在实际应用中的泛化能力。此外,FocusTrack还结合了多种先进的优化策略,包括对相似性矩阵的动态调整、对检测置信度的时空优化等,使得模型在面对不同类型的挑战时,能够灵活调整策略,实现更稳定和准确的跟踪效果。
总体而言,FocusTrack的提出标志着MOT技术在处理复杂和拥挤环境中的新进展。通过优化检测和关联过程,结合多种先进的模块设计,FocusTrack不仅在性能上超越了现有的主流跟踪器,还在算法效率和鲁棒性方面取得了显著提升。这一成果为未来MOT技术的发展提供了新的思路和方法,也为实际应用中的复杂场景提供了更可靠的解决方案。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号