多模态动态融合框架MDFusion：基于跨模态特征互补性的三维目标检测技术

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月27日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　本文提出了一种创新的多阶段动态融合框架MDFusion，通过空间坐标编码模块（SCE）和图像深度引导模块（IDG）实现激光雷达（LiDAR）与相机数据的深度交互，在nuScenes数据集上达到73.9% mAP和75.2% NDS的先进性能，为自动驾驶环境感知提供了几何与语义协同优化的新范式。

Highlight

MDFusion框架通过激光雷达（LiDAR）精确几何表征与RGB图像丰富纹理信息的深度融合，构建了无需显式视角转换的端到端检测管道，在nuScenes测试集上实现75.2% NDS的突破性性能。

LiDAR-based Methods

相较于相机，激光雷达在恶劣光照条件下仍可实现鲁棒目标检测，并提供高精度三维信息。基于点云特征处理方式，现有方法主要分为三类：基于点的（如PointRCNN）、基于体素的（如VoxelNet）和基于投影的（如PIXOR）。

Method

如图1所示，MDFusion框架通过双模态主干网络提取特征后，创新性地将时空特征输入Transformer解码器建模跨模态依赖，同时利用2D/3D区域提议网络（RPN）生成候选区域，最终通过自适应融合模块动态聚合多源信息。

Dataset

nuScenes数据集包含6视角360°环视RGB图像和激光雷达点云数据，其20秒视频片段以2Hz采样率生成28,130个训练样本，为复杂自动驾驶场景研究提供完整传感器套件支持。

Conclusion

我们提出的多阶段融合框架通过图像深度引导和空间坐标感知模块，显著缩小了异质模态间的特征分布差距，实现了从粗粒度到细粒度的自适应渐进式融合，为实例级三维目标检测树立了新标杆。

（注：严格遵循要求未包含文献标识/图示标签，专业术语保留英文缩写并规范使用^{/_{标签，如2D/3D RPN）}}

热点排行

联系信箱：

粤ICP备09063491号