多模态动态融合框架MDFusion:基于跨模态特征互补性的三维目标检测技术

【字体: 时间:2025年08月27日 来源:Expert Systems with Applications 7.5

编辑推荐:

  本文提出了一种创新的多阶段动态融合框架MDFusion,通过空间坐标编码模块(SCE)和图像深度引导模块(IDG)实现激光雷达(LiDAR)与相机数据的深度交互,在nuScenes数据集上达到73.9% mAP和75.2% NDS的先进性能,为自动驾驶环境感知提供了几何与语义协同优化的新范式。

  

Highlight

MDFusion框架通过激光雷达(LiDAR)精确几何表征与RGB图像丰富纹理信息的深度融合,构建了无需显式视角转换的端到端检测管道,在nuScenes测试集上实现75.2% NDS的突破性性能。

LiDAR-based Methods

相较于相机,激光雷达在恶劣光照条件下仍可实现鲁棒目标检测,并提供高精度三维信息。基于点云特征处理方式,现有方法主要分为三类:基于点的(如PointRCNN)、基于体素的(如VoxelNet)和基于投影的(如PIXOR)。

Method

如图1所示,MDFusion框架通过双模态主干网络提取特征后,创新性地将时空特征输入Transformer解码器建模跨模态依赖,同时利用2D/3D区域提议网络(RPN)生成候选区域,最终通过自适应融合模块动态聚合多源信息。

Dataset

nuScenes数据集包含6视角360°环视RGB图像和激光雷达点云数据,其20秒视频片段以2Hz采样率生成28,130个训练样本,为复杂自动驾驶场景研究提供完整传感器套件支持。

Conclusion

我们提出的多阶段融合框架通过图像深度引导和空间坐标感知模块,显著缩小了异质模态间的特征分布差距,实现了从粗粒度到细粒度的自适应渐进式融合,为实例级三维目标检测树立了新标杆。

(注:严格遵循要求未包含文献标识/图示标签,专业术语保留英文缩写并规范使用/标签,如2D/3D RPN)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号