基于Transformer多模态交互的RGB-T目标跟踪代表性令牌挖掘方法

【字体: 时间:2025年07月22日 来源:Pattern Recognition 7.5

编辑推荐:

  为解决RGB-T跟踪中背景干扰和模态差异导致的性能下降问题,研究人员提出MRTTrack框架,通过多模态分离-协作模块(MSC)和跨模态差异约束(CDC),实现目标导向的令牌筛选与跨模态特征对齐。实验表明该方法在LasHeR等数据集上达到32.5 FPS实时性能,显著提升复杂环境下的跟踪鲁棒性。

  

在计算机视觉领域,视觉目标跟踪(VOT)技术是智能监控系统的核心,但传统RGB模态跟踪器在夜间、雾霾等极端环境下常因光照变化失效。热红外(TIR)成像虽能弥补这一缺陷,却面临RGB与TIR模态特征差异大、背景干扰严重的双重挑战。现有RGB-T跟踪方法往往平等处理所有图像区域,导致关键目标特征被冗余背景信息淹没,且缺乏有效的跨模态对齐机制。

针对这一难题,西安电子科技大学的研究团队在《Pattern Recognition》发表论文,提出创新性解决方案MRTTrack。该框架通过多模态分离-协作模块(MSC)实现两阶段优化:首先基于跨层注意力图递归聚合生成目标导向令牌掩膜,筛选出最具代表性的图像区域;随后通过掩膜引导的三重注意力机制完成模态内特征净化与模态间协同融合。配合跨模态差异约束(CDC)强制背景区域特征一致性,有效缩小模态鸿沟。关键技术包括Transformer架构的层级注意力分析、动态令牌选择策略,以及LasHeR等四大基准数据集验证。

研究结果显示:在目标导向令牌选择阶段,通过12层Transformer注意力图矩阵相乘构建的显著性评估指标,使目标区域召回率提升19.6%;多模态令牌交互环节采用的掩膜注意力机制,将背景干扰噪声降低32.4%;CDC约束使跨模态背景特征相似度提高28.7%。在VTUAV夜间数据集测试中,该方法对光照突变的适应能力较基线模型提升41.2%。

该研究的突破性在于首次将令牌挖掘理念引入多模态跟踪领域,创新性地利用Transformer原生注意力机制实现无监督特征选择,避免额外计算开销。实际应用中,32.5 FPS的实时性能使其可部署于无人机巡检、夜间安防等场景。未来工作可探索动态阈值调整策略,进一步优化复杂场景下的令牌选择精度。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号