基于跨模态跨区域互引导双阶段注意力机制的MGNet :多尺度特征融合的RGBT目标跟踪新方法

【字体: 时间:2025年06月16日 来源:Neural Networks 6.0

编辑推荐:

  针对RGBT跟踪中跨模态跨区域特征互引导不足的问题,研究人员提出MGNet网络,通过跨模态跨区域双阶段注意力(CCDA)模块实现异源区域特征互指导,结合多尺度区域内特征融合(MIFF)模块增强特征表达。该方法在GTOT等三大数据集上以75 FPS实现SOTA性能,为复杂场景下的实时多模态跟踪提供新范式。

  

在视觉目标跟踪领域,单一可见光模态的跟踪器(如Sun, Liu等2024年工作)面临夜间、雾霾等复杂环境的挑战。热红外(TIR)模态虽能捕捉目标热辐射特征,但缺乏纹理细节。RGBT跟踪通过融合可见光(RGB)与TIR模态的互补信息,成为解决这一难题的关键技术。然而,现有方法(如ViPT、TBSI)多采用同区域模态融合策略,忽视了跨区域特征的互引导潜力,且深层CNN融合带来高昂计算成本,制约实时性应用。

长沙理工大学的研究团队在《Neural Networks》发表论文,提出MGNet框架。该工作创新性地引入跨模态跨区域双阶段注意力(CCDA)模块:第一阶段混合异源模态特征保留区域独特性,第二阶段通过注意力机制实现跨模态互引导;配合多尺度区域内特征融合(MIFF)模块,在OSTrack Transformer骨干网上实现75 FPS的实时性能。实验表明,该方法在LasHeR数据集上精度超越TBSI 1%的同时,速度达其2倍(3090 GPU vs A100集群)。

关键技术

  1. 基于Transformer的OSTrack骨干网微调;2) CCDA模块的双阶段混合-注意力机制;3) MIFF模块的轻量级多尺度卷积融合;4) LasHeR等三大基准数据集验证;5) 3090 GPU端到端部署方案。

研究结果

  1. 跨模态互引导机制设计
    CCDA模块首阶段将模板-搜索区域特征混合生成跨模态表征,二阶段通过交叉注意力筛选互补特征。实验显示该设计使GTOT数据集成功率提升3.2%,证实异源区域互引导的有效性。

  2. 多尺度特征融合优化
    MIFF模块采用1×1、3×3、5×5并行卷积核融合同区域特征,在RGBT234数据集上使尺度变化场景的跟踪精度提升2.7%,证明多尺度感知对模态差异补偿的作用。

  3. 实时性突破
    通过轻量化设计,MGNet在3090单卡实现75 FPS,较TBSI(36 FPS/4×A100)显著提升部署效率,满足应急响应等实时需求。

结论与意义
该研究首次实现跨模态跨区域特征的动态互引导,突破传统同区域融合的局限性。CCDA模块通过双阶段注意力建立模态间对话机制,MIFF模块则解决模态内多尺度特征退化问题。国家自然科学基金(61972056)资助的这项成果,不仅为多模态跟踪提供新方法论,其轻量化设计更为边缘设备部署奠定基础。作者Jing Yang等开源代码的策略,将进一步推动RGBT跟踪技术的实用化进程。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号