基于角色自适应的多模态重校准网络(RAMR):面向复杂环境的RGBT目标追踪新范式

【字体: 时间:2025年08月17日 来源:Expert Systems with Applications 7.5

编辑推荐:

  本文提出角色自适应模态重校准网络(RAMR),通过质量感知模态管理(QAMM)模块动态分配主辅模态角色,结合非对称融合机制(AMFM)和双向跨模态优化(BCOM)模块,有效解决RGBT追踪中模态质量动态变化与语义不一致问题。实验表明在LasHeR等数据集上精度达71.9%,显著提升热交叉(thermal crossover)等极端场景下的追踪鲁棒性。

  

Highlight

RAMR采用三级创新架构:1)基于注意力熵的动态角色分配机制;2)主模态门控增强与非对称融合(AMFM);3)视觉-语言双向优化(BCOM)模块。在LasHeR数据集上取得57.2%成功率(Success Rate),攻克了热交叉(thermal crossover)和局部遮挡等医学影像分析常见难题。

Method

如图2所示,RAMR采用Transformer编码器-解码器架构。编码器包含12层Vision Transformer(ViT),在第3/6/9层嵌入非对称交互模块:主模态通过空间注意力(Spatial AttentionSA)增强特征,辅模态则通过语言提示(Text PromptTP)进行语义补偿,形成"增强-补偿"双通路。

Implementation details

采用两阶段训练策略:第一阶段在RGB数据集上预训练单模态分支;第二阶段在LasHeR的RGBT子集进行多模态优化。使用AdamW优化器(β1=0.9, β2=0.999),初始学习率1e-4,batch size设为64。

RAMR Pipeline Overview

流程始于QAMM模块的质量评分,动态分配主辅角色。双流Transformer编码过程中,AMFM模块执行空间注意力增强,BCOM模块通过文本对齐实现语义调制。最终解码器融合多层级特征,输出预测框——这种"评估-增强-对齐"机制类似免疫系统的动态应答过程。

Conclusion

RAMR框架通过三重创新:1)实时质量驱动的模态切换;2)非对称特征调制;3)语言引导的语义校准,显著提升复杂场景下的追踪鲁棒性。在医学影像分析场景中,该技术为多模态数据融合提供了新思路。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号