FusionBev:结合激光雷达(LiDAR)和4D雷达实现3D物体检测的技术

《Information Fusion》:FusionBev: LiDAR and 4D Radar Fusion for 3D Object Detection

【字体: 时间:2026年02月16日 来源:Information Fusion 15.5

编辑推荐:

  3D目标检测中LiDAR与4D雷达融合模型FusionBev通过跨融合模块、冗余下采样和几何一致性模块解决数据异构性和传感器对齐问题,在VoD和K-Radar数据集上mAP达89.2%和64.9%,计算效率提升,内存占用降低。

  
作者:袁凡琦(Yuanfan Qi)、刘春(Chun Liu)、吴航斌(Hangbin Wu)、陈瑞杰(Ruijie Chen)、文成璐(Chenglu Wen)、黄迅(Xun Huang)、贾守军(Shoujun Jia)、张可可(Keke Zhang)
单位:同济大学测绘与地理信息学院,中国上海200092

摘要

3D对象检测是自动驾驶系统中的关键任务,但在遮挡和恶劣天气条件下,其性能会下降。融合来自LiDAR和4D雷达的多模态点云是解决这一问题的有效方法。然而,现有的LiDAR和4D雷达融合方法仅在鸟瞰(BEV)层面融合异构点云的特征,忽略了几何不一致性,这使得它们对恶劣条件非常敏感。为了解决这些问题,我们提出了一种LiDAR和4D雷达融合模型(FusionBev),以实现准确且鲁棒的3D对象检测。在本研究中,我们重点关注如何在体素层面完全融合LiDAR和4D雷达数据,并确保几何一致性。此外,我们提出了一个交叉融合模块(CF)来聚合LiDAR和4D雷达体素的特征。经过CF模块的体素编码后,我们设计了一种冗余下采样策略(RD)来学习多尺度特征。最后,我们设计了一个几何一致性模块(GC)来解决传感器之间的几何偏移问题。我们在多个公共数据集上进行了广泛实验,以评估该模型的有效性和鲁棒性。值得注意的是,FusionBev在VoD数据集上的mAP达到了89.2%,在K-Radar数据集上的mAP达到了64.9%。与最近的LiDAR-4D雷达融合方法(L4DR)相比,我们的模型推理速度提高了两倍以上(27.6 FPS vs 13.1 FPS),并且GPU内存使用量减少了一半以下(2.81 GB vs 6.31 GB)。

引言

近年来,自动驾驶系统有望从根本上改变人员和货物的运输方式[1],并取得了显著进展。作为感知模块的核心组成部分[2,3],3D对象检测因其能够为自动驾驶系统提供全面的场景理解而受到研究人员的广泛关注[4]。基于摄像头、LiDAR和雷达的3D检测算法相继被开发出来。尽管摄像头在2D对象检测中得到广泛应用,但它们缺乏深度信息且容易泄露隐私[5]。LiDAR凭借其高分辨率和不受光照影响的感知能力[6,7],在3D对象检测任务中得到了广泛应用。然而,LiDAR缺乏可识别信息[8],这对自动驾驶和其他AI系统中的隐私保护至关重要[9,10]。然而,在实际驾驶场景中,车辆遮挡常常限制了LiDAR捕捉完整物体表面的能力[11]。恶劣天气条件(如雨、雪和雾)会进一步降低LiDAR点云数据的完整性和准确性[12],从而降低对象检测的准确性,影响自动驾驶系统的可靠性[13]。虽然将提供丰富纹理信息的摄像头与LiDAR结合可以改善检测效果[2,[14],[15],[16],但摄像头-LiDAR融合方法经常面临深度估计错误、计算需求高以及难以缓解恶劣天气条件和车辆遮挡导致的数据退化等问题。
另一种新型的4D雷达传感器近年来也受到了广泛关注[17]。这种传感器能够提供高度信息,使其输出可以被视作稀疏点云数据[18,19]。通过利用多普勒效应,雷达可以同时测量物体的速度和位置[20,21]。其强大的穿透能力使得它在恶劣天气下的检测距离更远、鲁棒性更强[22]。这些特性激发了人们对基于雷达的对象检测的兴趣[23]。然而,4D雷达点云的稀疏性限制了3D对象检测的性能。例如,在VoD数据集中,ZF FRGen21 4D雷达的方位角和仰角分辨率为0.15°,其点云密度仅为LiDAR的十分之一[24]。这促使我们将其与密集的LiDAR点云融合,以获得更好的3D对象检测结果。
LiDAR和4D雷达的融合可以克服各自的缺点,充分利用4D雷达的鲁棒性和LiDAR的高分辨率优势。然而,在融合LiDAR和4D雷达点云时存在两个主要挑战:首先,点云特征的差异(LiDAR点云包含x、y、z、强度;4D雷达点云包含x、y、z、速度、反射率等),这使得异构点云无法通过简单的线性叠加进行融合。其次,特征几何形状的不一致性。由于传感器老化或路面振动等原因,4D雷达和LiDAR的点云往往难以在几何上精确对齐。
最近,一些基于深度学习的模型(如Interfusion[18]、M^2fusion[25]、3D-LRF[26]和L4DR[13])被提出,为解决上述挑战提供了重要机会。如图3所示,这些模型通常分别从LiDAR和4D雷达点云中提取特征,然后进行融合。然而,它们往往忽略了特征的几何不一致性。尽管这些方法取得了显著进展,但特征级融合方法仍面临一些问题,需要进一步研究:(1)场景敏感性,恶劣天气或严重遮挡的场景可能会降低检测性能;(2)模型复杂性,多个主干网络会增加模型参数的数量;(3)几何不一致性,这些方法通常依赖离线传感器校准来对齐异构点云特征,但随着车辆老化,这种校准效果会下降;(4)计算效率低,同时处理LiDAR和4D雷达点云会给自动驾驶系统带来较大的计算负担。
为了解决上述问题,我们提出了FusionBev,这是一种专为从LiDAR和4D雷达点云中进行准确3D对象检测而设计的高效新型深度学习网络。我们的方法的核心思想是在体素层面聚合LiDAR和4D雷达的特征。具体来说,我们识别出与LiDAR体素在几何上一致的4D雷达体素,并将4D雷达的特征(如速度)与LiDAR体素共享,从而帮助改进3D对象检测任务。FusionBev包括两个关键模块:交叉融合主干网络和几何一致性模块。如图3(c)所示,我们的交叉融合主干网络在初始阶段通过哈希搜索高效地确定异构点云体素之间的几何关系,从而增加融合体素的物理多样性。这一过程有助于提高检测准确性,同时减少GPU内存使用(详细实验验证见4.4节消融研究和4.6.1节复杂性和运行时间分析)。我们基于这样的洞察:具有相似几何位置的点云的物理属性(如强度和速度)是相同的。在交叉融合主干网络的基础上,我们进一步设计了几何一致性模块来增强异构点云特征的几何一致性。该模块利用卡方分布来模拟传感器之间的偏移,如4.4.3节所示。
我们使用多个广泛使用的公共基准数据集(包括VoD数据集[27]和K-Radar数据集[28])在各种天气条件下对FusionBev进行了全面评估。我们还将FusionBev与InterFusion[18]和L4DR[13]等先进方法进行了比较。在正常和恶劣天气条件下,结果均表明FusionBev在性能上明显优于其他方法。此外,与最近的LiDAR-4D雷达融合方法(L4DR、InterFusion)相比,我们的模型所需GPU内存最少(2.81 GB),推理速度最快(27 FPS)。这种效率的提升使其更适用于实际应用和成本降低。我们的主要贡献如下:
  1. 我们提出了一种新颖的交叉融合主干网络,在体素层面聚合LiDAR和4D雷达的不同特征。与之前的LiDAR-4D雷达融合方法(L4DR、InterFusion)不同,这种创新模块使用统一的主干网络从两种类型的点云中学习特征,从而减少了GPU内存需求并提高了推理速度。
  2. 我们引入了一个几何一致性模块,解决了先前研究中忽略的特征不一致性问题,并进一步利用卡方分布来模拟异构数据之间的几何偏移。
  3. 通过在基准数据集上的广泛实验,我们的方法在不同天气条件下始终表现出优越的性能。在晴朗天气下的VoD数据集中,我们的方法在mIoU上比最佳现有方法(L4DR)高出1.7%。在包含各种恶劣天气条件的K-Radar数据集中,我们的方法也优于先进模型(L4DR),性能提升了11.4%。
LiDAR-based 3D对象检测
得益于LiDAR捕捉三维结构信息的能力,深度学习方法被广泛用于对象检测算法。当前的基于LiDAR的方法大致可以分为基于点的方法、基于体素的方法和基于点-体素的方法。基于点的方法直接使用原始点云作为输入,并利用PointNet提取特征生成精细的3D提案。
所提出的网络
本文提出了一种基于异构点云之间交叉融合的LiDAR和4D雷达融合方法。FusionBev的架构如图4所示。具体而言,首先将来自LiDAR和4D点云的网格体素通过交叉融合模块组合成LiDAR和4D雷达特征的混合体。随后,设计了一种冗余下采样策略来从融合体素中学习不同层次的特征。
VoD数据集
FusionBev模型在VoD数据集(表1)[27]上进行了测试。该数据集包含8693帧LiDAR、摄像头和4D雷达数据,用于2022年自动驾驶领域的3D对象检测。数据集涵盖了交叉路口、侧面行驶、桥梁等驾驶场景(图8)。根据以往研究[27]的设置,我们使用了5139帧训练数据和1296帧验证数据,用于检测汽车、行人和自行车。在本文中,我们建立了检测范围。
结论
在本文中,我们提出了FusionBev,这是一种新型且高效的LiDAR和4D雷达融合模型,用于3D对象检测。它解决了LiDAR和4D雷达点云在体素层面融合时固有的挑战,特别是由于遮挡和恶劣天气条件导致的点云数据退化问题,从而降低了对象检测性能。FusionBev引入了一种哈希搜索算法来确定异构点云之间的空间关系。
袁凡琦(Yuanfan Qi):概念化、方法论、研究、软件开发、验证、可视化、形式分析、撰写——原始草稿;刘春(Chun Liu):方法论、验证、资金获取;吴航斌(Hangbin Wu):监督、验证;陈瑞杰(Ruijie Chen):可视化;文成璐(Chenglu Wen):验证;黄迅(Xun Huang):验证;贾守军(Shoujun Jia):可视化;张可可(Keke Zhang):资源协调。
数据可用性
本文使用的数据集分别可以从以下网站下载:[https://github.com/tudelft-iv/view-of-delft-dataset[https://github.com/kaist-avelab/K-Radar
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号