面向离散时变矩阵平方根与立方根求解的新型归零神经网络及其在复杂场景目标跟踪中的应用

【字体: 时间:2025年09月29日 来源:Neurocomputing 6.5

编辑推荐:

  本文提出一种创新视觉跟踪框架MSTGT,通过混合数据采样(VSS-FMS)与多尺度时空引导(MSVCE/MSTGE)的深度融合,有效解决了有限样本下复杂场景的目标跟踪难题。该框架在六个基准测试中实现SOTA性能(如GOT-10K达75.5% AO),以62 fps实时运行,为人工智能在安防监控与自动驾驶等领域的应用提供了新范式。

  
亮点
  • 1.
    我们提出了一种名为MSTGT的新型视觉序列引导跟踪框架,通过整合数据混合采样模拟与多尺度时空引导,创新性地解决了复杂场景下的视觉跟踪问题。
  • 2.
    我们开发了两种多尺度编码器,将目标的多尺度时空信息作为视觉引导融入令牌序列传播机制,从而消除了对复杂在线更新策略的需求。
  • 3.
    我们的方法在六个视觉跟踪基准测试(包括GOT-10K、LaSOT、LaSOText、TrackingNet、UAV123和OTB-100)中展现了卓越性能,验证了其有效性。
方法
本节详细阐述提出的MSTGT方法。首先概述整体跟踪框架,随后按顺序描述框架的各个组成部分。
实施细节
我们的方法基于python3.8和pytorch1.10框架实现。跟踪器在2张RTX 4080 GPU上进行训练。推理阶段在单张NVIDIA RTX 2080Ti上测试速度。
训练。 使用HiViT-Base作为视觉编码器,其参数采用MAE预训练参数初始化。训练数据包括LaSOT、GOT-10K、TrackingNet和COCO。输入数据方面,我们采集包含一帧参考帧的视频序列...
结论
本工作中,我们提出了MSTGT——一种通过从混合数据采样模拟过渡到多尺度时空引导来应对复杂跟踪场景的新型视觉跟踪框架。为增强特征多样性和鲁棒性,我们提出了视频序列采样与特征混合策略,通过减轻对有限训练数据的过拟合来提升算法在挑战性环境中的性能。此外,我们整合了多尺度特征和时空信息...
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号