面向无人机跟踪的目标导向自适应视觉Transformer算法研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月07日 来源：Neural Networks 6.3

编辑推荐：

　　本文推荐一种基于目标导向自适应视觉Transformer（TA-ViT）的无人机（UAV）跟踪算法TATrack。该研究通过自适应评分暂停机制动态剪枝冗余网络层，结合时空位置提示（spatial-temporal prompt）增强目标感知，在五个UAV跟踪基准测试中实现计算效率与精度的最优平衡（205-354 FPS，AUC 62.6-67.2），为资源受限的机载平台提供了创新解决方案。

亮点

• 我们提出一种目标导向的自适应视觉Transformer（TA-ViT），通过目标引导的自适应评分暂停机制减少网络冗余和推理时间。

• 采用目标位置信息作为时空提示（spatial-temporal prompt），提升目标感知能力与跟踪过程的空间连续性。

• 在五大无人机跟踪权威基准测试中验证了TATrack的卓越效能，实际飞行测试进一步证实其稳定性和鲁棒性。

高效视觉Transformer

视觉Transformer（ViT）已成为目标检测（Carion et al., 2020）和姿态估计（Yang et al., 2021）等任务的主干网络。针对边缘设备的实时性需求，动态ViT（DynamicViT）采用基于Gumbel-softmax的门控机制实现token暂停，而Ada-ViT则...

方法

本节介绍目标导向自适应无人机跟踪框架TATrack：

1.
通过TA-ViT统一特征提取与目标信息融合过程；
2.
构建包含视觉提示的自适应主干网络和轻量化定位头（如图3所示）。

实验

在UAV123（Mueller et al., 2016）、DTB70（Li and Yeung, 2017）等四大基准测试中，使用NVIDIA RTX3090 GPU对比20种主流跟踪器...

结论

本研究提出的目标导向自适应（TA）视觉Transformer创新性地通过token暂停机制实现网络剪枝，结合目标位置先验增强时空感知，为实时无人机跟踪提供了高效解决方案。

未引用图表

图4、图7及表7未在正文引用。

作者贡献声明

王文康：撰写/修改稿件、可视化、验证、算法设计；徐天阳：理论分析；谢飞：监督指导；吴金辉：数据整理；杨万扣：项目管理与资金支持。

利益冲突声明

作者声明无任何可能影响本研究的财务或个人关系。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号