具有任务感知注意力的干扰抑制暹罗网络,用于视觉跟踪
《Computer Vision and Image Understanding》:Distractor suppression Siamese network with task-aware attention for visual tracking
【字体:
大
中
小
】
时间:2025年12月12日
来源:Computer Vision and Image Understanding 3.5
编辑推荐:
视觉跟踪研究提出基于Siamese网络的SiamDT算法,通过任务感知注意力网络增强跨相关性特征的空间和通道注意力,并设计分心特征抑制网络利用IoU生成掩码抑制背景干扰,在OTB2013等复杂场景中达到最优性能。
刘志刚|邢富远|黄浩|王克新|邵宇轩
东北大学计算机与通信工程学院,秦皇岛 066004,中国
摘要
现有的基于IoU(交并比)的跟踪算法通过用IoU预测值加权分类得分来抑制背景干扰,但这限制了它们在复杂跟踪场景中的有效性。在本文中,我们提出了一种结合任务感知注意力(SiamDT)的干扰特征抑制孪生网络(Distractor feature suppression Siamese network)用于视觉跟踪。首先,我们设计了一个干扰特征抑制网络,该网络利用IoU得分来抑制分类特征中的干扰特征,从而在特征层实现干扰抑制。同时,我们设计了一个任务感知注意力网络,该网络通过使用混合注意力机制重建互相关特征,增强了来自分类和回归分支的特征在空间和通道域上的语义表示能力。在包括OTB2013、OTB2015、UAV123、LaSOT和GOT10k在内的多个基准数据集上的广泛实验表明,所提出的SiamDT取得了先进的跟踪性能。
引言
视觉跟踪是计算机视觉领域的一个重要研究课题,其目标是通过第一帧的模板块顺序定位移动对象。它已被广泛应用于智能交通(Chen等人,2020年)、人机交互(Liu等人,2022年)和增强现实(Palmarini等人,2018年)等领域。近年来,多模态信息也被引入视觉跟踪中,以提高在复杂环境下的鲁棒性(Zhou等人,2023年;Luo等人,2022年;Li等人,2022年)。尽管近年来取得了显著进展,但由于变形、背景杂乱、运动模糊和遮挡等因素,视觉跟踪仍然是一个具有挑战性的任务。
基于孪生网络的跟踪算法将跟踪任务表述为一个相似性匹配问题,学习模板和搜索区域之间的相似性图以预测目标位置。原始的跟踪任务被划分为两个子任务:分类和回归。对于分类任务,SiamCAR(Guo等人,2020年)使用中心置信度得分来加权分类得分,以确保跟踪器为目标中心区域给出更高的分类得分。Tang和Ling(2022年)提出了一种分类排名损失,将分类任务转化为排名任务,通过建模正样本和负样本之间的相关性来减轻跟踪器中的背景干扰。Wang和Guo(2023年)引入了对比损失,以提高分类层在前景和背景之间的区分能力。由于交并比(IoU)得分可以有效地衡量预测边界框与真实边界框之间的对齐程度,许多基于孪生网络的跟踪器都结合了IoU得分以提高跟踪精度。IASNet(Wei等人,2023年)设计了一个基于IoU的分类分支,以替代传统的二分类标签,在训练阶段更为准确。SiamIG(Zhou等人,2021年)和IMSiam(Tan等人,2022年)在测试阶段引入了典型的IoU预测分支,使分类得分更加准确。SiamIH(Liu等人,2025年)在训练阶段结合了IoU加权的分类损失,使模型能够学习IoU的先验知识并抑制背景中的干扰。然而,上述工作主要在得分层面细化了分类结果。
为了解决上述问题,我们提出了一种基于孪生网络的视觉跟踪器SiamDT,该跟踪器通过干扰特征抑制和任务感知注意力来减轻复杂的背景干扰。具体来说,SiamDT主要由一个任务感知注意力网络(TANet)和一个干扰特征抑制网络(DFSNet)组成。TANet包括一个通道注意力模块和一个空间注意力模块,它们从互相关特征中提取信息,并学习更适合每个分支的任务的特征。DFSNet在回归分支中引入了一个IoU分支,该分支使用输出的IoU生成一个抑制掩码。这个掩码被应用于分类特征,从而在特征层实现背景干扰的抑制。
本文的主要贡献总结如下:
- 我们提出了一种任务感知注意力网络,该网络使用并行混合注意力模块重建互相关特征,以满足分类和回归任务的独特特征需求。
- 我们设计了一个干扰特征抑制网络,该网络使用生成的抑制掩码来加权分类特征,有效地抑制分类分支中的背景干扰。
- 我们将上述两个网络集成到一个孪生框架中,形成了我们的跟踪器SiamDT。在五个基准数据集上的广泛实验证明了SiamDT的有效性。
本文的其余部分组织如下:第2节回顾了相关工作。第3节介绍了所提出的SiamDT方法。第4节展示了实验结果和分析。第5节对本文进行了总结。
部分摘录
孪生跟踪器
孪生跟踪器因其速度和准确性的平衡而受到了广泛关注。开创性工作SiamFC(Bertinetto等人,2016年)采用了一个全卷积孪生网络来学习目标图像块和候选图像块之间的相似性度量,将跟踪问题表述为整个图像上的目标搜索问题。SiamRPN(Li等人,2018年)引入了一种基于锚点的机制,并通过分类分支预测目标置信度和边界框偏移量。
整体架构
如图1所示,所提出的SiamDT由四个部分组成:高置信度模板融合网络(HTFNet)(Liu等人,2025年)、任务感知注意力网络(TANet)、干扰特征抑制网络(DFSNet)和预测头网络。模板帧和搜索图像被输入HTFNet进行特征提取和模板融合,然后生成互相关特征。接着,TANet使用混合注意力机制将互相关特征转换为
实验细节
训练阶段。在本研究中,我们采用了COCO(Lin等人,2014年)、ImageNet DET(Russakovsky等人,2015年)、ImageNet VID(Russakovsky等人,2015年)、GOT10k(Huang等人,2019年)、YouTubeBB(Real等人,2017年)和LaSOT(Fan等人,2019年)作为我们的基本训练集,并在OTB2013(Wu等人,2013年)、OTB2015(Wu等人,2015年)和UAV123(Benchmark,2016年)上测试我们的模型。为了确保在LaSOT和GOT10k测试数据集上对跟踪器进行公平比较,我们仅使用指定的数据集进行训练。
结论
在本文中,我们提出了一种基于干扰特征抑制和任务感知注意力网络的孪生网络跟踪器(SiamDT),该跟踪器在复杂场景中实现了鲁棒的视觉跟踪。具体来说,SiamDT结合了任务感知注意力网络,通过混合注意力增强了分类和回归任务在空间和通道维度上的特征表示能力。干扰特征抑制网络可以在特征层抑制背景噪声。
CRediT作者贡献声明
刘志刚:软件、方法论、概念化。邢富远:写作 – 审稿与编辑、初稿撰写、数据整理。黄浩:可视化、验证、软件。王克新:验证、调查。邵宇轩:验证、调查。
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。
致谢
本工作得到了国家自然科学基金的资助,项目编号为61973069和62306068。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号