基于代理交叉注意力与神经卡尔曼滤波的多模态多目标跟踪方法ACNTrack研究

【字体: 时间:2025年07月02日 来源:Neurocomputing 5.5

编辑推荐:

  针对复杂环境中多模态特征交互效率低、运动建模适应性差等问题,北京理工大学团队提出ACNTrack框架。该研究通过代理交叉注意力机制优化跨模态特征融合,创新性设计FPS-Conv模块增强多尺度特征提取,并开发神经卡尔曼滤波器(NKF)动态调整噪声参数。实验表明,该方法在KAIST、FLIR等数据集上实现SOTA性能,为全天候多目标跟踪(MMOT)提供高效解决方案。

  

在智能监控、自动驾驶等领域,多模态多目标跟踪(MMOT)技术面临严峻挑战:可见光、红外与微光图像的特征互补性未被充分挖掘,传统方法如空间金字塔池化(SPPF)难以捕捉模态间细微差异,而固定参数的卡尔曼滤波器更无法适应复杂运动场景。现有融合方法如HGT-Track虽引入图Transformer,但计算开销大;Unismot等方案在实时性要求下又牺牲了深度特征交互精度。如何平衡精度与效率,成为突破MMOT技术瓶颈的关键。

北京理工大学的研究团队在《Neurocomputing》发表的研究中,提出ACNTrack创新框架。该工作核心突破在于:1) 采用代理交叉注意力机制构建双路径特征融合网络,通过并行处理全局-局部特征将计算复杂度降低30%;2) 设计特征金字塔共享卷积(FPS-Conv)替代传统SPPF,利用可变膨胀率卷积捕获多尺度细节;3) 首创神经卡尔曼滤波器(NKF),通过LSTM网络动态预测过程噪声Qk和观测噪声Rk参数。实验覆盖KAIST、FLIR等5个主流数据集,验证了方法在极端光照条件下的鲁棒性。

关键技术方法
研究基于VT-MOT等公开数据集,采用跟踪-检测范式。检测阶段通过FPS-Conv提取多模态特征,代理交叉注意力模块实现RGB-Thermal特征交互;关联阶段采用NKF进行运动预测,其中LSTM网络输入目标位移、速度等8维特征,输出噪声协方差矩阵。特别引入低置信度检测框复用策略,提升关联效率。

研究结果

跨模态特征融合架构
双分支结构分别处理局部细节(通过3×3深度可分离卷积)和全局上下文(代理注意力机制),在FLIR数据集上使特征相似度提升19.6%,推理速度达45FPS。

FPS-Conv模块
对比实验显示,该模块在KAIST的mAP达到86.2%,较SPPF提升4.3%,尤其对小目标(<32×32像素)检测率提高11.2%。

神经卡尔曼滤波器
在UniRTL数据集上,NKF将IDF1指标提升至78.5%,对突发运动(加速度>5m/s2)的轨迹连续性保持率优于传统KF 27%。

结论与意义
该研究首次将动态噪声估计引入多目标跟踪,NKF的适应性机制为复杂运动建模提供新思路。FPS-Conv与代理注意力协同解决了模态间特征分布差异问题,在保持45FPS实时性的同时达到SOTA精度。方法在VT-MOT无人机序列中展现强泛化性,为全天候安防、灾害救援等场景提供可靠技术支撑。未来可扩展至事件相机等新型传感器融合领域。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号