基于跨模态跨区域互引导双阶段注意力机制的MGNet ：多尺度特征融合的RGBT目标跟踪新方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月16日 来源：Neural Networks 6.0

编辑推荐：

　　针对RGBT跟踪中跨模态跨区域特征互引导不足的问题，研究人员提出MGNet网络，通过跨模态跨区域双阶段注意力(CCDA)模块实现异源区域特征互指导，结合多尺度区域内特征融合(MIFF)模块增强特征表达。该方法在GTOT等三大数据集上以75 FPS实现SOTA性能，为复杂场景下的实时多模态跟踪提供新范式。

在视觉目标跟踪领域，单一可见光模态的跟踪器（如Sun, Liu等2024年工作）面临夜间、雾霾等复杂环境的挑战。热红外(TIR)模态虽能捕捉目标热辐射特征，但缺乏纹理细节。RGBT跟踪通过融合可见光(RGB)与TIR模态的互补信息，成为解决这一难题的关键技术。然而，现有方法（如ViPT、TBSI）多采用同区域模态融合策略，忽视了跨区域特征的互引导潜力，且深层CNN融合带来高昂计算成本，制约实时性应用。

长沙理工大学的研究团队在《Neural Networks》发表论文，提出MGNet框架。该工作创新性地引入跨模态跨区域双阶段注意力(CCDA)模块：第一阶段混合异源模态特征保留区域独特性，第二阶段通过注意力机制实现跨模态互引导；配合多尺度区域内特征融合(MIFF)模块，在OSTrack Transformer骨干网上实现75 FPS的实时性能。实验表明，该方法在LasHeR数据集上精度超越TBSI 1%的同时，速度达其2倍（3090 GPU vs A100集群）。

关键技术

基于Transformer的OSTrack骨干网微调；2) CCDA模块的双阶段混合-注意力机制；3) MIFF模块的轻量级多尺度卷积融合；4) LasHeR等三大基准数据集验证；5) 3090 GPU端到端部署方案。

研究结果

跨模态互引导机制设计
CCDA模块首阶段将模板-搜索区域特征混合生成跨模态表征，二阶段通过交叉注意力筛选互补特征。实验显示该设计使GTOT数据集成功率提升3.2%，证实异源区域互引导的有效性。
多尺度特征融合优化
MIFF模块采用1×1、3×3、5×5并行卷积核融合同区域特征，在RGBT234数据集上使尺度变化场景的跟踪精度提升2.7%，证明多尺度感知对模态差异补偿的作用。
实时性突破
通过轻量化设计，MGNet在3090单卡实现75 FPS，较TBSI（36 FPS/4×A100）显著提升部署效率，满足应急响应等实时需求。

结论与意义
该研究首次实现跨模态跨区域特征的动态互引导，突破传统同区域融合的局限性。CCDA模块通过双阶段注意力建立模态间对话机制，MIFF模块则解决模态内多尺度特征退化问题。国家自然科学基金(61972056)资助的这项成果，不仅为多模态跟踪提供新方法论，其轻量化设计更为边缘设备部署奠定基础。作者Jing Yang等开源代码的策略，将进一步推动RGBT跟踪技术的实用化进程。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号