面向无人机跟踪的目标导向自适应视觉Transformer算法研究

【字体: 时间:2025年09月07日 来源:Neural Networks 6.3

编辑推荐:

  本文推荐一种基于目标导向自适应视觉Transformer(TA-ViT)的无人机(UAV)跟踪算法TATrack。该研究通过自适应评分暂停机制动态剪枝冗余网络层,结合时空位置提示(spatial-temporal prompt)增强目标感知,在五个UAV跟踪基准测试中实现计算效率与精度的最优平衡(205-354 FPS,AUC 62.6-67.2),为资源受限的机载平台提供了创新解决方案。

  

亮点

• 我们提出一种目标导向的自适应视觉Transformer(TA-ViT),通过目标引导的自适应评分暂停机制减少网络冗余和推理时间。

• 采用目标位置信息作为时空提示(spatial-temporal prompt),提升目标感知能力与跟踪过程的空间连续性。

• 在五大无人机跟踪权威基准测试中验证了TATrack的卓越效能,实际飞行测试进一步证实其稳定性和鲁棒性。

高效视觉Transformer

视觉Transformer(ViT)已成为目标检测(Carion et al., 2020)和姿态估计(Yang et al., 2021)等任务的主干网络。针对边缘设备的实时性需求,动态ViT(DynamicViT)采用基于Gumbel-softmax的门控机制实现token暂停,而Ada-ViT则...

方法

本节介绍目标导向自适应无人机跟踪框架TATrack:

  1. 1.

    通过TA-ViT统一特征提取与目标信息融合过程;

  2. 2.

    构建包含视觉提示的自适应主干网络和轻量化定位头(如图3所示)。

实验

在UAV123(Mueller et al., 2016)、DTB70(Li and Yeung, 2017)等四大基准测试中,使用NVIDIA RTX3090 GPU对比20种主流跟踪器...

结论

本研究提出的目标导向自适应(TA)视觉Transformer创新性地通过token暂停机制实现网络剪枝,结合目标位置先验增强时空感知,为实时无人机跟踪提供了高效解决方案。

未引用图表

图4、图7及表7未在正文引用。

作者贡献声明

王文康:撰写/修改稿件、可视化、验证、算法设计;徐天阳:理论分析;谢飞:监督指导;吴金辉:数据整理;杨万扣:项目管理与资金支持。

利益冲突声明

作者声明无任何可能影响本研究的财务或个人关系。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号