
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向无人机跟踪的目标导向自适应视觉Transformer算法研究
【字体: 大 中 小 】 时间:2025年09月07日 来源:Neural Networks 6.3
编辑推荐:
本文推荐一种基于目标导向自适应视觉Transformer(TA-ViT)的无人机(UAV)跟踪算法TATrack。该研究通过自适应评分暂停机制动态剪枝冗余网络层,结合时空位置提示(spatial-temporal prompt)增强目标感知,在五个UAV跟踪基准测试中实现计算效率与精度的最优平衡(205-354 FPS,AUC 62.6-67.2),为资源受限的机载平台提供了创新解决方案。
亮点
• 我们提出一种目标导向的自适应视觉Transformer(TA-ViT),通过目标引导的自适应评分暂停机制减少网络冗余和推理时间。
• 采用目标位置信息作为时空提示(spatial-temporal prompt),提升目标感知能力与跟踪过程的空间连续性。
• 在五大无人机跟踪权威基准测试中验证了TATrack的卓越效能,实际飞行测试进一步证实其稳定性和鲁棒性。
高效视觉Transformer
视觉Transformer(ViT)已成为目标检测(Carion et al., 2020)和姿态估计(Yang et al., 2021)等任务的主干网络。针对边缘设备的实时性需求,动态ViT(DynamicViT)采用基于Gumbel-softmax的门控机制实现token暂停,而Ada-ViT则...
方法
本节介绍目标导向自适应无人机跟踪框架TATrack:
通过TA-ViT统一特征提取与目标信息融合过程;
构建包含视觉提示的自适应主干网络和轻量化定位头(如图3所示)。
实验
在UAV123(Mueller et al., 2016)、DTB70(Li and Yeung, 2017)等四大基准测试中,使用NVIDIA RTX3090 GPU对比20种主流跟踪器...
结论
本研究提出的目标导向自适应(TA)视觉Transformer创新性地通过token暂停机制实现网络剪枝,结合目标位置先验增强时空感知,为实时无人机跟踪提供了高效解决方案。
未引用图表
图4、图7及表7未在正文引用。
作者贡献声明
王文康:撰写/修改稿件、可视化、验证、算法设计;徐天阳:理论分析;谢飞:监督指导;吴金辉:数据整理;杨万扣:项目管理与资金支持。
利益冲突声明
作者声明无任何可能影响本研究的财务或个人关系。
生物通微信公众号
知名企业招聘