基于双向模态交互的多模态端到端自动驾驶网络BiFusion研究

【字体: 时间:2025年06月06日 来源:Expert Systems with Applications 7.5

编辑推荐:

  为解决RGB图像与LiDAR点云模态差异导致的自动驾驶感知瓶颈,研究人员提出双向模态交互网络BiFusion,通过跨模态表征交互编码器(CRIM)和预测交互解码器(CPIM)实现特征互补,在CARLA仿真器中Town05 Long基准测试中显著超越现有方法,为多模态融合自动驾驶提供新范式。

  

自动驾驶技术正深刻改变人类出行方式,但传统模块化系统存在信息丢失和误差累积的缺陷。尽管端到端方法通过直接映射传感器数据到控制信号缓解了这一问题,但单一模态(如RGB相机)难以应对光照变化和几何信息缺失的挑战。虽然LiDAR能提供精确3D空间数据,但现有融合方法多采用单向策略(如PMF、PointPainting),仅将LiDAR特征注入图像分支,导致模态间交互不足。这种"单向增强"模式忽视了RGB与LiDAR的双向互补性,成为制约自动驾驶性能提升的关键瓶颈。

针对这一挑战,国内研究人员在《Expert Systems with Applications》发表论文提出BiFusion网络。该研究创新性地构建了双向交互框架:通过跨模态表征交互模块(CRIM)实现LiDAR鸟瞰图(BEV)与图像透视视图(PV)的双向特征融合,利用跨视图位置嵌入确保几何对齐;通过跨模态预测交互模块(CPIM)的掩码自注意力机制建立轨迹点时空依赖,并引入辅助任务(图像分割和BEV地图预测)强化特征学习。在CARLA仿真器的Town05 Long基准测试中,该方法驾驶性能显著优于现有技术。

关键技术包括:1)多摄像头(120°FOV)与LiDAR的BEV投影输入;2)ResNet-34/18双分支特征提取;3)CRIM的注意力交互机制;4)CPIM的掩码自注意力预测;5)多任务学习框架。实验采用4块NVIDIA Tesla A100 GPU,以10?4
学习率训练45个epoch。

研究结果

  1. 输入输出表征:三视角RGB图像(300×400像素)与LiDAR BEV投影构成输入,通过双分支网络提取多尺度特征,其中图像分支输出(56×72至7×10)与LiDAR分支(48×48至6×6)特征形成交互基础。

  2. 跨模态表征交互:CRIM模块通过注意力机制建立像素-点对应关系,实验显示该设计使特征融合效率提升37%,视角间几何一致性误差降低62%。

  3. 跨模态预测交互:CPIM模块的掩码自注意力使轨迹预测误差较基线降低28%,长时预测(>5s)稳定性提高41%。

  4. 多任务学习:辅助任务使BEV地图预测mIoU达到82.3%,图像分割精度提升19%,验证了显式特征引导的有效性。

结论与意义
该研究突破传统单向融合局限,首次实现RGB-LiDAR的平等双向交互。CRIM与CPIM模块构成"表征-预测"双阶段交互体系,其中注意力机制和位置嵌入技术解决了跨模态空间对齐难题。在CARLA复杂场景测试中,BiFusion的路线保持精度和障碍物规避成功率分别达到94.7%和91.2%,为端到端自动驾驶提供了可解释的多模态融合范式。未来工作可扩展至多传感器时序融合领域,推动自动驾驶系统在极端环境下的鲁棒性发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号