紧凑型轴向注意力机制结合细节增强技术,用于视觉目标跟踪
《Engineering Applications of Artificial Intelligence》:Compact axial attention with detail enhancement for visual object tracking
【字体:
大
中
小
】
时间:2026年02月10日
来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
Transformer-based目标跟踪需平衡全局建模与计算效率,本文提出紧凑轴向注意力模块(CAA)和细节增强模块(DEM),通过单轴压缩降低计算复杂度(从O(H2W2)到O(HW)),同时通过DEM恢复局部细节,构建高效Siamese跟踪框架CEATrack,在六项基准测试中AUC达65.8%,FPS达48。
王圆云|顾庚|唐超|王俊
江西水利电力大学信息工程学院,南昌,330029,中国
摘要
当前的基于变压器的跟踪器主要分为两种类型:基于卷积神经网络(CNN)的变压器型和完全基于变压器的跟踪器。由于卷积神经网络的局部感受野,基于CNN的变压器型跟踪器在捕捉长距离依赖关系和全局上下文方面仍然存在困难,这在遮挡和较大视角变化等复杂场景中会降低跟踪性能。完全基于变压器的跟踪器使用变压器进行特征提取和关系建模。这种类型的跟踪器通常是一个单流单阶段的跟踪框架。这不仅带来了巨大的计算成本,还丢失了双阶段跟踪器在测试阶段缓存的模板特征。为了解决这个问题,我们设计了一种带有细节增强模块的紧凑轴向注意力机制,该机制将特征压缩到单个轴上,从而在不损失全局信息的情况下降低计算复杂度。基于此,我们设计了一种新的基于变压器的特征提取框架。进一步地,我们提出了一种新的视觉目标跟踪跟踪器——带有细节增强的紧凑轴向注意力,它在六个具有挑战性的跟踪基准测试中取得了先进的性能。特别是在大规模单目标跟踪(LaSOT)任务中,该跟踪器的曲线下面积(AUC)得分为65.8%;在大型野外目标跟踪数据集(TrackingNet)中的标准化精度得分为86.8%;在无人机数据集(UAV123)中的精度得分为90.0%。
引言
视觉目标跟踪一直是计算机视觉任务的重点之一,其目标是在给定第一帧目标状态的情况下预测后续帧中目标的状态。目标跟踪在各个方面都起着关键作用,包括自动驾驶(Li等人,2019a)、交互式人机系统(Wu等人,2015)和实时监控(Gao等人,2020a)等应用。
近年来,卷积神经网络(CNN)(Krizhevsky等人,2012)已成为目标跟踪领域的基石,主要是因为它们的卷积操作非常适合处理图像数据。这些操作能够有效地从图像中提取局部特征,同时保持平移不变性。研究人员利用CNN开发了各种跟踪模型(Bertinetto等人,2016)。例如,基于孪生网络的跟踪器(Xu等人,2020;Li等人,2019b)使用CNN作为特征提取的骨干,并采用卷积互相关进行特征融合。这些方法在速度和准确性方面都展示了强大的跟踪能力。尽管具有这些优势,但卷积操作本质上是局部的,仅关注邻域信息,忽略了连续帧之间的广泛上下文关系。在视觉跟踪中,这种上下文信息至关重要。特别是在长期跟踪场景中,时间上下文信息有助于提高跟踪性能。
由于Transformer在自然语言处理(NLP)任务中展示了强大的长期全局建模能力(Subakan等人,2021),研究人员成功将其应用于视觉跟踪任务并取得了良好的结果(Wang等人,2024)。目前的基于Transformer的跟踪器主要有两种类型。第一种类型使用CNN进行特征提取,然后使用Transformer进行关系建模以提高全局建模能力,例如TrDiMP(Wang等人,2021c)和TransT(Chen等人,2021)。由于CNN在提取全局特征方面的局限性,提取的特征在长距离依赖关系方面不足。另一种类型完全使用Transformer进行特征提取和关系建模,包括单流单阶段全Transformer型跟踪器(Cui等人,2022b;Ye等人,2022)和双流双阶段全Transformer型跟踪器(Xie等人,2021)。单流单阶段全Transformer型跟踪器不仅计算成本高,还丢失了双阶段跟踪器在测试阶段缓存的模板特征。在这方面,我们采用了一种基于Transformer的特征提取框架,该框架包含模板分支和搜索分支。与之前将特征提取和融合分开的基于Transformer的跟踪器不同,我们提出的跟踪算法CEATrack将它们统一在一个紧凑的Transformer框架内。此外,所提出的紧凑轴向注意力机制有效地将二次注意力复杂度降低到线性形式,同时保持了双向空间依赖性,细节增强模块恢复了压缩过程中丢失的局部细节,从而形成了一个独特且高效的架构。
为了进一步降低自注意力计算成本,我们在孪生跟踪框架中设计了一种紧凑的轴向注意力特征提取网络。作为自注意力,我们首先线性投影图像特征以获得查询矩阵、键矩阵\math{K}和值矩阵\math{V},这些矩阵用于计算注意力。然后,我们通过对特征图进行水平和垂直方向的压缩操作,自适应地使用1×1卷积和批量归一化。压缩操作在单个轴上保留了全局信息,同时大幅降低了全局建模的计算成本。随后,压缩后的特征被输入到多头注意力中以进行全局关系建模。最后,输出结果通过1×1卷积和批量归一化层进行自适应扩展,以恢复特征。
自注意力\math{q}、\math{k}和\math{v}的自适应压缩计算复杂度分别为\math{O(HW)。注意力操作需要\math{O(H^2W)的计算复杂度,而自适应扩展需要\math{O(HW)的计算复杂度。紧凑轴向注意力有效地将复杂度从\math{O(H^2W)降低到\math{O(HW)。虽然压缩操作可以以较低的计算成本有效提取全局语义信息,但它忽略了特征的局部细节信息。为此,我们提出了一个细节增强模块来增强原始特征的细节,然后将增强后的特征与紧凑轴向注意力获得的特征融合,从而恢复了压缩操作导致的丢失的局部细节。我们的跟踪器CEATrack在六个具有挑战性的基准测试中进行了评估,包括LaSOT(Fan等人,2019)、GOT-10k(Huang等人,2021)、UAV123(Mueller等人,2016)、Nfs(Kiani Galoogahi等人,2017)和TrackingNet(Muller等人,2018),并且实现了每秒48帧(fps)的跟踪速度。
总结来说,本研究的主要贡献如下:
- 我们设计了一种新的基于Transformer的特征提取框架,其中包含了一个紧凑的轴向注意力模块。该架构通过沿单个轴进行特征压缩,高效地捕获了全局语义信息,同时保留了特征图中的关键上下文信息。
- 为了补偿压缩过程可能导致的细粒度局部细节的损失,我们设计了一个细节增强模块。该模块有效地恢复了高分辨率信息,并与紧凑轴向注意力特征无缝集成,为后续跟踪任务提供了更具区分性的表示。
- 基于所提出的特征提取框架和细节增强模块,我们开发了一种新的视觉跟踪器。在六个广泛使用的基准数据集上的广泛实验证明了该跟踪器的优越性能。这些结果验证了紧凑轴向注意力机制的有效性,并确认了细节增强模块对目标表示和跟踪准确性的贡献。
部分摘录
孪生跟踪
基于孪生网络的单目标跟踪包括两个具有共享权重的分支。模板分支从第一帧提取关键特征信息,而搜索分支在当前帧中提取特征。这两个分支提取的特征随后被输入到互相关层中进行相似性计算,以实现移动目标的定位和跟踪。
SiamFC(Bertinetto等人,2016)是孪生网络的一个里程碑
提出的方法
我们设计了一种完全基于注意力机制的孪生跟踪器CEATrack。CEATrack框架包括三个部分:特征提取、特征融合和预测头,如图1所示。特征提取由我们提出的紧凑轴向注意力设计中的编码器完成。在特征融合阶段,受MixFormer的启发,我们使用非对称混合注意力机制来完成目标模板特征之间的交互
实验
在本节中,我们首先详细介绍了CEATrack的实现细节。接下来,我们在GOT-10k数据集上进行消融研究,以验证CEATrack各组件的有效性。最后,我们通过将其与六个竞争性基准测试中的最新跟踪器进行比较来评估CEATrack:TNL2K(Wang等人,2021a)、NfS(Kiani Galoogahi等人,2017)、LaSOT(Fan等人,2019)、UAV123(Mueller等人,2016)、GOT-10k(Huang等人,2021)
结论与未来工作
在本文中,我们提出了一种集成紧凑轴向注意力(CAA)模块和细节增强模块(DEM)的孪生跟踪框架。紧凑轴向注意力以低计算成本有效地捕获了全局语义依赖关系,而细节增强模块补偿了CAA过程中导致的局部细节损失。在GOT-10k数据集上的全面消融实验验证了这些设计的有效性,所提出的CEATrack取得了
CRediT作者贡献声明
王圆云:撰写——原始草稿、方法论、资金获取、概念化。顾庚:撰写——原始草稿、软件、资源、调查、数据管理。唐超:撰写——审阅与编辑、验证、调查、形式分析。王俊:撰写——审阅与编辑、监督、项目管理、资金获取。
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。
致谢
本工作得到了江西省自然科学基金(编号:20242BAB25075、20242BAB25058和20252BAC250017)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号