
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多层级跨模态交互Transformer的RGBT目标跟踪算法研究
【字体: 大 中 小 】 时间:2025年06月25日 来源:Neurocomputing 5.5
编辑推荐:
为解决RGB-TIR多模态跟踪中全局建模不足、跨模态融合不充分及预测头静态参数化问题,研究人员提出MCIT算法,通过插入CMI模块的共享ViT实现多层级特征交互,并设计WAH头增强动态感知。实验表明该算法在四个基准数据集上达到SOTA性能,为复杂环境下的目标跟踪提供新思路。
在计算机视觉领域,目标跟踪技术是智能监控、自动驾驶等应用的核心基础。然而,传统基于可见光(RGB)的单模态跟踪器在极端光照或恶劣天气下性能骤降,而结合热红外(TIR)模态的RGBT跟踪虽能缓解此问题,却面临三大挑战:卷积神经网络(CNN)的局部感知特性导致全局建模能力不足;简单的特征拼接或加权融合难以充分挖掘跨模态语义关联;全卷积预测头(FCN)的固定感受野难以适应目标快速运动。这些瓶颈使得现有方法在目标尺度变化、运动模糊等复杂场景中表现欠佳。
针对上述问题,长沙理工大学的研究团队在《Neurocomputing》发表论文,提出多层级跨模态交互Transformer(MCIT)算法。该研究创新性地将跨模态交互(CMI)模块嵌入共享视觉Transformer(ViT)架构,通过多层级注意力机制实现RGB与TIR模态的深度特征融合,并设计基于滑动窗口的自注意力预测头(WAH)增强动态定位能力。实验证明,该算法在RGBT210等四个基准数据集上超越现有方法,尤其在夜间跟踪、目标遮挡等挑战性场景中表现突出。
关键技术方法包括:1)采用共享权重的ViT作为基础特征提取器;2)设计包含模板跨模态交互和搜索-模板交互双流程的CMI模块;3)构建含分类、偏移和尺寸预测三分支的WAH头;4)使用来自RGBT234等公开数据集的超过10万帧多模态视频序列进行训练验证。
跨模态交互模块设计
研究团队发现传统融合方法如TFNet的Trident结构或DAFNet的自适应加权存在模态交互不充分问题。CMI模块通过多头注意力(MHA)分两阶段处理:首先在模板模态间建立语义关联,再与搜索区域进行信息交换。这种设计既避免搜索区域背景污染模板特征,又通过Transformer的全局注意力机制捕捉长程依赖关系。
窗口化注意力预测头
针对FCN预测头感受野受限的问题,WAH采用分层滑动窗口策略:在局部窗口内计算自注意力提取细节特征,通过层级聚合获得全局上下文。相比OSTrack的Center-head,该结构对目标形变和快速运动的适应能力提升23.6%,在VTUAV无人机数据集上的跟踪成功率达到78.4%。
多层级特征融合策略
实验表明,在ViT的第3、6、9层插入CMI模块效果最优。低层融合增强边缘、纹理等基础特征互补性,高层交互促进语义信息整合。这种设计使算法在LasHeR数据集的遮挡场景下精确度提升15.2%。
该研究的重要意义在于:1)首次将ViT的全局建模能力引入RGBT跟踪领域;2)提出的CMI模块为多模态特征交互提供新范式;3)WAH头设计为动态目标预测开辟新思路。作者Yu Qin指出,未来工作将探索模态间不确定性加权机制,以进一步提升算法在模态缺失场景下的鲁棒性。论文提供的开源代码已获GitHub平台240+星标,成为多模态跟踪领域的热点项目。
生物通微信公众号
知名企业招聘