
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于跨模态跨区域互引导双阶段注意力机制的MGNet :多尺度特征融合的RGBT目标跟踪新方法
【字体: 大 中 小 】 时间:2025年06月16日 来源:Neural Networks 6.0
编辑推荐:
针对RGBT跟踪中跨模态跨区域特征互引导不足的问题,研究人员提出MGNet网络,通过跨模态跨区域双阶段注意力(CCDA)模块实现异源区域特征互指导,结合多尺度区域内特征融合(MIFF)模块增强特征表达。该方法在GTOT等三大数据集上以75 FPS实现SOTA性能,为复杂场景下的实时多模态跟踪提供新范式。
在视觉目标跟踪领域,单一可见光模态的跟踪器(如Sun, Liu等2024年工作)面临夜间、雾霾等复杂环境的挑战。热红外(TIR)模态虽能捕捉目标热辐射特征,但缺乏纹理细节。RGBT跟踪通过融合可见光(RGB)与TIR模态的互补信息,成为解决这一难题的关键技术。然而,现有方法(如ViPT、TBSI)多采用同区域模态融合策略,忽视了跨区域特征的互引导潜力,且深层CNN融合带来高昂计算成本,制约实时性应用。
长沙理工大学的研究团队在《Neural Networks》发表论文,提出MGNet框架。该工作创新性地引入跨模态跨区域双阶段注意力(CCDA)模块:第一阶段混合异源模态特征保留区域独特性,第二阶段通过注意力机制实现跨模态互引导;配合多尺度区域内特征融合(MIFF)模块,在OSTrack Transformer骨干网上实现75 FPS的实时性能。实验表明,该方法在LasHeR数据集上精度超越TBSI 1%的同时,速度达其2倍(3090 GPU vs A100集群)。
关键技术
研究结果
跨模态互引导机制设计
CCDA模块首阶段将模板-搜索区域特征混合生成跨模态表征,二阶段通过交叉注意力筛选互补特征。实验显示该设计使GTOT数据集成功率提升3.2%,证实异源区域互引导的有效性。
多尺度特征融合优化
MIFF模块采用1×1、3×3、5×5并行卷积核融合同区域特征,在RGBT234数据集上使尺度变化场景的跟踪精度提升2.7%,证明多尺度感知对模态差异补偿的作用。
实时性突破
通过轻量化设计,MGNet在3090单卡实现75 FPS,较TBSI(36 FPS/4×A100)显著提升部署效率,满足应急响应等实时需求。
结论与意义
该研究首次实现跨模态跨区域特征的动态互引导,突破传统同区域融合的局限性。CCDA模块通过双阶段注意力建立模态间对话机制,MIFF模块则解决模态内多尺度特征退化问题。国家自然科学基金(61972056)资助的这项成果,不仅为多模态跟踪提供新方法论,其轻量化设计更为边缘设备部署奠定基础。作者Jing Yang等开源代码的策略,将进一步推动RGBT跟踪技术的实用化进程。
生物通微信公众号
知名企业招聘