以数据为中心是一种全新的无人机跟踪方法:通过高效的数据利用策略实现了一个新的基准测试
《Journal of Visual Communication and Image Representation》:Data-centric is a novel perspective for UAV-based tracking: A new benchmark via efficient data utilization strategy
【字体:
大
中
小
】
时间:2026年02月13日
来源:Journal of Visual Communication and Image Representation 3.1
编辑推荐:
无人机目标跟踪中,针对相距远、高速运动和小目标特性,提出数据驱动优化策略。通过构建UAVSOT数据集,筛选并增强现有数据集中符合无人机场景的挑战性序列,实验表明该方法在提升跟踪精度方面效果显著,且无需增加计算负担。
蔡雄友|吴曙光|李世文|张宏如
江门理工学院信息工程学院,中国广东省江门市潮连大道6号,529020
摘要 使用无人机(UAV)跟踪移动目标面临着重大挑战,因为相机与目标之间的距离较远,且两者之间存在相对运动。跟踪器必须高效处理外观和运动信息,同时要满足无人机有限的机载计算能力和实时操作需求的限制。尽管当前最先进的(SOTA)UAV跟踪器依赖于紧凑的网络结构,但在不增加复杂性的情况下优化性能仍然是一个艰巨的任务。本文提出了一种以数据为中心的方法来提升UAV环境中的跟踪性能。首先,我们批判了现有数据集的局限性,并提出了一种新的数据挖掘策略,从而开发出了UAVSOT数据集。该数据集为UAV场景中的单目标跟踪提供了更详细的表示,有效解决了现有数据集的不足。实验表明,在UAVSOT上训练的方法显著提高了跟踪精度,而无需额外的计算开销。此外,我们比较了以模型为中心和以数据为中心的方法,以突出我们数据驱动策略在优化UAV跟踪器方面的有效性。代码和原始结果可以在以下链接找到:
https://github.com/caixiongyou/UAV-DC-Track 。
引言 单目标跟踪(SOT)[1] [2]涉及在视频序列中连续跟踪特定目标,是计算机视觉研究中的基本任务。随着深度学习技术的快速发展,许多跟踪算法在各种通用基准测试中取得了令人印象深刻的结果[1] [3] [4] [5]。然而,从UAV的角度来看,跟踪任务涉及具有重大实际价值的极具挑战性的场景。与一般场景不同,UAV跟踪呈现出独特的挑战,需要专门的解决方案,如图1所示。
在UAV跟踪中,相机与目标之间的较大距离以及它们之间的相对运动要求算法能够准确利用外观特征并建模运动。例如,高空无人机操作会导致地面目标看起来更小,减少了可见信息的数量,使跟踪变得更加复杂。此外,目标和UAV的快速移动会导致显著的相对位移,破坏运动的连续性,使算法难以建模这种动态。
为了解决这些挑战,需要通过轻量级方法优化跟踪算法的计算效率,同时不牺牲精度。由于UAV有限的机载计算能力和对实时性能的需求,使用计算密集型的SOTA算法受到限制。因此,迫切需要针对UAV平台的资源限制开发高效、轻量级的单目标跟踪算法。这些算法应旨在最小化计算需求,简化模型架构,并改进特征提取过程,包括使用算法加速和多尺度处理等技术。
尽管已经开发了各种跟踪算法,如LightFC [8],这些算法在精度和效率方面进行了优化,但在复杂场景中仍存在挑战。我们的实验分析(第4.4节)表明,使用传统的以模型为中心的方法进一步优化LightFC [8]可能会无意中增加计算负担并降低处理速度。因此,我们提出了一种以数据为中心的策略,优先考虑有效的数据利用,以应对UAV应用中跟踪微小、快速移动目标的特定挑战。
当前的SOT数据集主要使用固定相机,适用于一般场景,因此对于相机经常靠近目标的UAV特定应用来说并不理想,这会导致视频中的对象较大且相对静止。UAV操作的独特视角、运动学特性和环境条件与地面相机遇到的情况有很大不同,因此现有数据集无法充分训练UAV特定的跟踪模型。依赖GOT-10k [9]、LaSOT [1]、TrackingNet [4]和COCO [10]等通用场景数据集进行训练,并在UAV123 [6]和DTB70 [7]等较小的UAV特定数据集上进行验证,加剧了训练和测试阶段之间的数据分布不匹配问题。这不仅从训练复杂性和实际应用的角度挑战了算法的性能,也凸显了需要更全面的UAV特定跟踪数据集的紧迫性。
为了克服现有数据集的局限性,我们的方法旨在平衡不同领域之间的数据分布差异。我们首先利用来自一般场景的广泛使用的数据集,并采用有效的数据挖掘技术提取包含UAV跟踪独特挑战的子序列。这一举措最终形成了UAVSOT,这是一个高质量的数据集,专门设计用于弥合实际UAV环境中的训练和应用差距。UAVSOT涵盖了UAV单目标跟踪的广泛要求,包括不同的环境条件、目标大小和运动模式。
在此基础上,我们进行了广泛的实验分析,特别关注从以数据为中心和以模型为中心的角度评估LightFC [8]及其迭代版本。这些评估详细探讨了针对UAV跟踪应用定制的建模和优化策略的复杂性。我们的发现表明,实施的数据挖掘和利用技术显著提高了跟踪器的精度,而无需额外的计算需求,在一般场景和UAV特定场景中都取得了显著的性能提升。
本文的贡献如下:
• 我们深入分析了传统的大规模数据集与为UAV应用定制的数据集之间的分布差异,特别解决了与微小目标和快速运动相关的挑战。基于此分析,我们开发了针对这些特性的具体数据挖掘策略(第3.1节)。
• 我们从GOT-10k [9]、LaSOT [1]和TrackingNet [4]中识别出展示上述挑战的序列。这些序列构成了UAVSOT的基础,其中训练序列来自原始训练集,评估序列则从测试集中精选出来,以确保严格的测试环境(第3.2节)。
• 我们专注于通过卷积架构实现轻量化设计,分析当代的双网络跟踪器及其骨干结构。这项分析突出了它们的轻量级特性和特征提取能力,指出了现有限制,并提供了通过结合以模型为中心和以数据为中心的策略来优化更有效的UAV特定跟踪器的见解(第4节)。
部分摘录 通用场景SOT数据集 SOT是计算机视觉研究中的一个关键领域,专注于在视频序列中连续跟踪特定目标[11] [12] [13] [14] [15]。为了开发和评估SOT算法,研究人员建立了许多包含详细注释的多样化视频序列的数据集[1] [3] [4] [9] [16]。
OTB [3]是SOT研究的先驱,包括OTB-2013和OTB-2015版本。OTB-2013最初包含51个视频,到2015年扩展到了98个
方法 通用场景SOT数据集通常使用近距离、固定的相机,捕捉各种场景类型和目标大小。虽然这些数据集包含快速运动和微小目标等具有挑战性的序列,但由于数据量庞大,这些实例在算法训练阶段往往被忽视。相比之下,专注于快速运动和微小目标等挑战的UAV特定数据集则面临限制
实验细节 我们的实验使用Ubuntu 22.04操作系统、Python 3.9.19和PyTorch 2.2.2在硬件上进行,硬件配置包括第13代Intel? Core? i7-13700 CPU和NVIDIA GeForce RTX 3060 GPU。
我们的实验基于LightFC [8]的官方PyTorch实现,ECM和ERH模块以及所有默认超参数保持不变。唯一的修改是在数据层面,其中加入了UAVSOT子集。训练进行了400个周期
结论 本文从UAV的角度探讨了目标跟踪的复杂性,强调了需要强大的算法解决方案来处理微小目标和快速运动带来的独特挑战。同时,我们还专门分析了相对运动如何影响UAV跟踪。通过评估当前跟踪算法的不足并引入以数据为中心的优化策略,这项研究有效地弥合了训练和
CRediT作者贡献声明 蔡雄友: 写作 – 审稿与编辑,撰写 – 原稿,软件,项目管理,方法论,数据管理,概念化。吴曙光: 软件,方法论,形式分析。李世文: 验证,资源管理,形式分析,概念化。张宏如: 软件,形式分析,数据管理。
利益冲突声明 作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
蔡雄友 拥有广东五邑大学模式识别与智能系统的硕士学位。他目前就职于江门理工学院,专注于智能产品开发与应用。他的研究兴趣包括深度学习、目标跟踪、图像处理和模式识别。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号