
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多模态动态融合框架MDFusion:基于跨模态特征互补性的三维目标检测技术
【字体: 大 中 小 】 时间:2025年08月27日 来源:Expert Systems with Applications 7.5
编辑推荐:
本文提出了一种创新的多阶段动态融合框架MDFusion,通过空间坐标编码模块(SCE)和图像深度引导模块(IDG)实现激光雷达(LiDAR)与相机数据的深度交互,在nuScenes数据集上达到73.9% mAP和75.2% NDS的先进性能,为自动驾驶环境感知提供了几何与语义协同优化的新范式。
Highlight
MDFusion框架通过激光雷达(LiDAR)精确几何表征与RGB图像丰富纹理信息的深度融合,构建了无需显式视角转换的端到端检测管道,在nuScenes测试集上实现75.2% NDS的突破性性能。
LiDAR-based Methods
相较于相机,激光雷达在恶劣光照条件下仍可实现鲁棒目标检测,并提供高精度三维信息。基于点云特征处理方式,现有方法主要分为三类:基于点的(如PointRCNN)、基于体素的(如VoxelNet)和基于投影的(如PIXOR)。
Method
如图1所示,MDFusion框架通过双模态主干网络提取特征后,创新性地将时空特征输入Transformer解码器建模跨模态依赖,同时利用2D/3D区域提议网络(RPN)生成候选区域,最终通过自适应融合模块动态聚合多源信息。
Dataset
nuScenes数据集包含6视角360°环视RGB图像和激光雷达点云数据,其20秒视频片段以2Hz采样率生成28,130个训练样本,为复杂自动驾驶场景研究提供完整传感器套件支持。
Conclusion
我们提出的多阶段融合框架通过图像深度引导和空间坐标感知模块,显著缩小了异质模态间的特征分布差距,实现了从粗粒度到细粒度的自适应渐进式融合,为实例级三维目标检测树立了新标杆。
(注:严格遵循要求未包含文献标识/图示标签,专业术语保留英文缩写并规范使用/标签,如2D/3D RPN)
生物通微信公众号
知名企业招聘