时序信息提示网络TIPTrack:基于双模态特征桥接与高低频融合的鲁棒RGBT目标跟踪新方法

【字体: 时间:2025年07月29日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对现有RGBT跟踪方法在目标外观突变时易失效的问题,研究人员提出时序信息提示网络TIPTrack。通过序列提示生成器(SPG)和序列线索匹配器(SCM)实现跨帧特征传递,结合双模态特征桥(DFB)和历史特征提示融合(HFPF)增强模态交互,采用高低频融合(HiLoFF)优化特征表达。在GTOT等5个数据集验证显示,该方法在目标突然消失或剧烈变化时仍保持稳定跟踪。

  

在计算机视觉领域,视觉目标跟踪(VOT)技术如同数字世界的"鹰眼",持续锁定动态目标的身影。然而传统基于可见光的方法在雨雪、雾霾等极端环境下容易"失明",热成像模态虽能穿透恶劣环境,却面临目标外观突变导致的跟踪漂移难题。现有方法如MDNet-based和Siam-based框架要么更新频率不足,要么过度依赖初始模板,而新兴的ViT-based方法又缺乏跨时间维度的特征交互机制。这种"时空割裂"现象使得现有RGBT跟踪器在真实复杂场景中频频"跟丢"目标。

为解决这一瓶颈问题,国内研究团队创新性地提出了时序信息提示网络TIPTrack。该研究将目标外观变化特征转化为时序提示信号,通过序列提示生成器(SPG)实时捕获当前帧特征并编码为提示令牌,经由序列线索匹配器(SCM)传递给后续帧,形成贯穿跟踪过程的"记忆链条"。研究团队还设计了双模态特征桥(DFB)作为RGB与热成像特征的"翻译官",通过交换注意力计算生成互模板特征;开发的高低频融合(HiLoFF)模块则像专业的"频谱分析师",分别强化可见光的高频细节和热成像的低频结构特征。该成果发表于《Expert Systems with Applications》,为复杂场景下的鲁棒目标跟踪提供了新范式。

关键技术方法包括:1)基于ViT的骨干网络提取多模态初级特征;2)DFB模块通过历史特征提示融合(HFPF)实现跨模态结构化相关建模;3)HiLoFF模块结合低频/高频历史提示进行频域特征优化;4)SPG-SCM架构构建时序信息传递通路。实验采用GTOT、RGBT234等5个主流数据集验证,包含各类极端场景下的视频序列。

【特征编码与融合机制】研究显示,DFB模块生成的互模板特征使RGB与热成像模态的交互效率提升23.6%,HFPF机制通过图卷积保持历史特征的结构一致性,在目标遮挡场景下跟踪成功率提高17.2%。

【时序特征处理效能】SPG提取的紧凑提示令牌(仅占特征图0.8%存储空间)通过SCM实现毫秒级跨帧传递,使外观突变场景下的跟踪精度提升31.4%,验证了"轻量记忆"策略的有效性。

【频域特征优化表现】HiLoFF模块分离处理可见光的高频噪声(信噪比提升8.7dB)和热成像的低频背景干扰,融合后的特征在低照度场景下保持85.6%的跟踪准确率。

【综合性能对比】在VTUAV无人机数据集上,TIPTrack的AO(平均重叠率)达0.712,超越基准方法12.3%;在LasHeR长时跟踪任务中,R(鲁棒性)指标改善19.8%,证明方法在目标消失-重现场景的独特优势。

该研究突破性地建立了时序特征传递与多模态融合的协同框架,其创新价值体现在三方面:首先,时序信息提示机制为外观突变跟踪提供了"动态记忆"解决方案;其次,DFB-HFPF架构开创了结构化历史特征融合范式;最后,频域感知的HiLoFF模块实现了物理特性驱动的特征优化。值得注意的是,方法在保持实时性(38FPS)的同时,解决了传统方法参数更新滞后与模板僵化的问题。未来研究可进一步探索提示令牌的压缩算法与自适应更新策略,以拓展其在边缘计算设备中的应用前景。这项研究不仅为RGBT跟踪领域提供了新工具,其"时序提示"的核心思想对视频分析相关任务也具有普适性启示。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号