具有多尺度扩展注意力机制的Transformer跟踪方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Signal Processing: Image Communication》：Transformer tracking with multi-scale extended attention

【字体：大中小】 时间：2026年02月06日 来源：Signal Processing: Image Communication 3.4

编辑推荐：

　　本文提出一种基于多尺度扩展注意力块的Transformer主干网络，结合浅层多窗口局部交互与深层多头全局建模，有效捕捉多尺度上下文信息并降低计算冗余。实验表明，所设计的跟踪器MSETrack在六个基准测试中表现优异，包括UAV123和GOT-10k上的高AUC和AO值。

王圆云|沙鹏程|王俊|夏燕

南昌工业大学信息工程学院，中国南昌330029

摘要

目前，流行的跟踪器使用Transformer作为主干网络，因为Transformer能够捕捉序列数据中的长距离依赖关系，使模型具有更强的全局建模能力。然而，单一的多头自注意力结构并未充分利用不同阶段和尺度特征图之间的交互作用，这可能会限制其在下游任务中的性能，并且不同头之间的注意力模式具有高度相似性，导致计算冗余。在本文中，我们设计了一种多尺度扩展注意力模块（Multi-Scale Extended Attention block），该模块通过使用不同扩展率的滑动扩展窗口来捕捉不同尺度上的上下文语义依赖关系。每个头部可以实现小的局部和稀疏的信息交互，从而有效捕捉多尺度语义信息并减少计算冗余。基于该模块，我们设计了一个高效的基于Transformer的特征提取主干网络。该网络在浅层包含多尺度扩展注意力（MSEA）模块，在深层包含多头自注意力（MHSA）模块。主干网络可以实现局部特征和全局特征之间的互补性，并有效弥补Transformer在特征提取方面的不足。所提出的跟踪器经过端到端训练，并在六个跟踪基准测试中进行了验证，包括UAV123、GOT-10k、LaSOT、TNL2K、TrackingNet和NfS，在这些基准测试中均表现出优异的跟踪性能。特别是在UAV123上，其AUC达到了68.1%，在GOT-10k上达到了72.4%的准确率。

引言

视觉跟踪在日常生活中有广泛的应用，如智能驾驶[1]、人机交互[2]和实时监控[3][4]。视觉跟踪[5]的目的是根据第一帧中的初始目标状态预测后续帧中目标的位置。由于现实世界场景中的各种外观变化，如部分遮挡、快速运动、背景杂乱和尺度变化，视觉跟踪仍然是一项具有挑战性的任务。

在过去的几年中，卷积神经网络（CNN）被广泛用于视觉跟踪，因为它具有平移不变性，能够有效捕捉图像数据中的局部特征。在[6][7]中，CNN被用来构建跟踪模型。基于孪生网络的跟踪器[8][9]使用卷积神经网络作为特征提取的主干网络，并通过卷积互相关操作进行特征融合。这些跟踪器在跟踪速度和准确性方面表现出强大的性能。然而，卷积是一种局部操作，只能学习邻域信息，忽略了连续帧之间的丰富上下文信息。在视觉跟踪中，丰富的上下文信息至关重要，尤其是在长期跟踪场景中。

受自然语言处理（NLP）中序列建模任务的启发，研究人员将Transformer[10]引入到视觉跟踪[11][12]中。Chenet等人[13]提出了一种基于Transformer的跟踪算法，用编码器-解码器替换了传统的互相关模块，以避免传统卷积操作的局限性。这是因为Transformer[14]可以通过注意力机制捕捉序列图像块之间的长期上下文依赖关系，并实现图像块之间的依赖关系建模。尽管Transformer在视觉跟踪中取得了良好的效果，但也存在一些问题。Transformer采用分段方法处理图像，主要关注捕捉全局关系，在面对尺度变化等问题时表现不佳。此外，在浅层特征中对所有像素的依赖关系进行建模会产生计算冗余。

针对上述问题，为了提高Transformer在不同尺度上对特征的学习能力，我们设计了一种多尺度扩展注意力模块（MSEA），该模块包括条件位置编码（Conditional Position Encoding，CPE）[15]和MSEA模块。条件位置编码可以提高模型对不同分辨率输入的适应性。在滑动扩展窗口注意力的基础上，MSEA围绕每个头部的查询块进行操作，在滑动扩展窗口内稀疏选择关键值块，然后对映射后的特征执行自注意力操作，以实现小尺度的局部和稀疏图像块交互。使用较小的扩展率可以捕捉局部详细特征，而使用较大的扩展率可以捕捉更广泛的上下文信息。

为了在网络模型中实现局部信息和全局信息之间的更好平衡，我们设计了一个新的特征提取主干网络。在设计的骨干网络中，MSEA模块用于网络的浅层以学习不同尺度的局部信息，MHSA模块用于网络的深层以学习全局信息。该网络可以同时提取多个尺度上的局部和全局特征，有效弥补Transformer结构的不足。为了评估我们模型的性能，我们在六个跟踪基准测试中对其进行了测试，包括UAV123[16]、GOT-10k[17]、LaSOT[18]、TNL2K[19]、TrackingNet[20]和NfS[21]。实验结果表明，我们的跟踪器在这些数据集上表现优异。主要贡献可以总结如下：

$•$
我们设计了一种高效的多尺度扩展注意力模块，通过滑动扩展窗口捕捉不同尺度上的上下文语义依赖关系，并通过自注意力机制实现小尺度的局部和稀疏图像块交互，从而有效捕捉多尺度局部信息并减少计算冗余
$•$
基于多尺度扩展注意力模块，我们设计了一个高效的Transformer主干网络，在浅层使用MSEA模块，在深层使用MHSA模块。该主干网络充分利用了Transformer的优势，实现了局部特征和全局特征之间的互补性。
$•$
我们提出了一种名为MSETrack的跟踪器，它包括一个特征提取网络和一个特征融合网络。我们验证了特征提取网络的有效性，并在六个跟踪基准测试中测试了MSETrack跟踪器。实验结果表明，该跟踪器在保持实时跟踪速度的同时，具有良好的跟踪性能。

方法

本节首先描述了滑动扩展窗口注意力（sliding extended window attention）和多尺度扩展注意力模块（multi-scale extended attention blocks）的设计。基于这些模块，我们提出了跟踪框架，包括特征提取主干网络（feature extraction backbone network）、特征融合网络（feature fusion network）和预测头（prediction heads）。

实验

在本节中，我们介绍了实现细节。然后，我们将提出的MSETrack跟踪器与许多最新的先进跟踪器在六个基准测试中进行了比较。最后，我们还进行了消融研究，分析了MSEA模块对特征提取网络组件的影响。

讨论

实验结果表明，所提出的MSETrack结合了局部多尺度建模和深度全局推理的互补优势。MSEA模块通过不同的扩展率在浅层扩展了感受野，使主干网络在尺度变化的情况下更有效地捕捉目标结构和上下文线索。同时，更深层的MHSA层提供了更强的全局区分能力，从而提高了在具有挑战性属性上的性能

结论

我们的网络结构通过在前层使用MSEA模块，利用具有不同膨胀率的滑动扩展窗口来捕捉多尺度语义信息和局部交互，从而克服了传统单注意力架构的局限性，减少了计算冗余；在更深层，MHSA模块捕捉全局信息。这种网络架构促进了从局部依赖关系到全局依赖关系的转变

CRediT作者贡献声明

王圆云：撰写——原始草稿、方法论、资金获取、概念化。沙鹏程：软件实现、方法论、调查、数据整理。王俊：撰写——审稿与编辑、监督、项目管理、资金获取。夏燕：验证、软件实现、形式分析、数据整理。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了江西省自然科学基金（编号：20242BAB25058、20242BAB25075和20252BAC250017）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关工作

方法

实验

讨论

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行

新闻专题