DepthOcc:通过多深度融合和时间增强技术实现实时、准确的3D空间占用预测

《Computer Vision and Image Understanding》:DepthOcc: Real-time and accurate 3D occupancy prediction via multi-depth fusion and temporal enhancement

【字体: 时间:2026年02月10日 来源:Computer Vision and Image Understanding 3.5

编辑推荐:

  3D占用预测方法通过多深度融合和时空增强机制提升精度与实时性,在Occ3D-nuScenes数据集上实现3.5 mIoU增益。

  
成海茂|余琴|吴一强|周兴红|朱斌|刘佳|潘岩
上海大学机电工程与自动化学院,中国上海200444

摘要

3D占用预测在自动驾驶的场景理解中起着关键作用,它强调占用估计和语义分类。要实现实际应用,同时具备高精度和实时推理能力是必不可少的。然而,现有的轻量级方法受到深度估计精度不足和时间融合效果不佳的限制,导致性能不尽如人意。为了解决这些重大挑战,我们提出了DepthOcc,这是一种创新的3D占用预测方法,它整合了多深度融合技术和时间增强机制。具体来说,我们提出了一个多深度融合视图变换器(MDFVT),该变换器策略性地结合了单目和立体深度特征,显著提高了深度估计的精度。此外,还开发了一个时间增强占用头(TEOH),通过多时间交互系统地捕捉帧与帧之间的时空相关性,增强了多时间连接的时间融合能力,从而显著提高了特征融合过程的效率。在Occ3D-nuScenes基准测试中进行的全面实验表明,DepthOcc在保持高推理速度的同时,比基线方法提高了3.5个mIoU,其性能可与最先进的方法相媲美。

引言

近年来,基于视觉的感知算法因其成本效益和鲁棒性而受到越来越多的关注。利用CNN(Philion和Fidler,2020年;Li等人,2023b年;Li等人,2023a年;Huang和Huang,2022年)或Transformer(Wang等人,2022a年;Liu等人,2022年;Liu等人,2023年;Li等人,2022年)的方法在3D物体检测任务中取得了显著进展(Mouawad等人,2025年;Xiang等人,2024年;Tan等人,2023年)。然而,检测任务在识别超出预定义类别的物体以及精确捕捉真实世界场景中物体的详细几何形状方面仍然面临挑战。
最近,3D占用预测作为自动驾驶系统中的一个有前景的方法出现,它将周围环境离散化为均匀的体素,同时预测每个体素的占用状态和语义分类。尽管具有巨大潜力,当前的3D占用预测方法在平衡高预测精度和实时计算效率方面仍面临关键挑战。为了提高预测精度,已经开发了几种方法:SurroundOcc(Wei等人,2023年)通过生成真实标签来加强监督,而OccFormer(Zhang等人,2023年)和PanoOcc(Wang等人,2024年)采用先进的Transformer架构来促进更健壮的特征提取和有效的时间融合。然而,3D体素特征的高计算成本和内存使用限制了它们的实际应用(例如,Ma等人,2024a年;Lu等人,2023年)。虽然像FastOcc(Hou等人,2024年)和FlashOcc(Yu等人,2023年)这样的轻量级占用模型通过将体素空间转换为BEV(鸟瞰图)空间来缓解这一问题,但它们过于简化的架构设计往往为了计算效率而牺牲了详细的场景表示。通过对现有方法的全面分析,我们发现了轻量级方法中信息丢失的两个主要来源:不准确的视图变换和不足的时间特征融合。第一个关键限制源于视图变换所需的显式深度估计特征。当前的实现主要依赖于单目或双目立体深度估计技术。如表5所示,这些方法的性能有限,基于单目的方法达到了35.6 mIoU,而基于立体的方法达到了37.8 mIoU。与He等人(2024年)使用真实深度时获得的44 mIoU相比,这种性能差距主要源于这两种方法本身的固有局限性。对于单目深度估计,单图像输入本质上限制了提取足够视觉线索的能力。在双目深度估计的情况下,由于车辆运动导致的匹配歧义成为主要挑战,这破坏了相机视角之间的精确对齐。另一方面,时间特征中包含的丰富空间信息对于提高预测精度至关重要。然而,大多数细粒度的时间融合方法(Wang等人,2024年;Ye等人,2025年)都是在Transformer框架内或在3D空间中实现的。像FlashOcc(Yu等人,2023年)和FastOcc(Hou等人,2024年)这样的轻量级模型仅依赖简单的对齐和连接操作进行时间信息融合,未能充分利用时间数据的潜力。
为了解决这些挑战,我们提出了DepthOcc,这是一种在保持推理速度的同时提高模型精度的新方法,如图1所示。为了解决视图变换不准确的问题,DepthOcc引入了多深度融合视图变换器(MDFVT)。具体来说,设计了一个多深度估计网络来同时执行单目和双目立体深度估计。一旦获得两种深度估计,就会生成一个组合的深度表示,将单目深度补偿与从成本体积中获得的几何信息结合起来。这种融合使得深度估计更加准确和可靠。此外,对所有深度层应用了视角变换,并在这些变换之后融合了得到的BEV特征,从而提高了视图变换器的性能。
另一方面,为了克服粗略时间融合的局限性,我们提出了时间增强占用头(TEOH)来改进时间特征的整合。与仅依赖时间特征简单连接的轻量级方法不同,我们引入了一种多时间交互机制。该机制对时间特征序列进行时空交互,以生成精细的占用特征。然后使用一个特征增强模块将连接的特征与交互后的特征融合起来,从而增强整体的表示能力。这种增强的表示能力使得类别预测更加准确,最终提高了模型性能。我们的主要贡献可以总结如下:
  • 1.
    通过全面的实验和文献分析,我们确定了不准确的深度估计和粗略的时间融合是限制现有轻量级占用预测方法性能的关键因素。
  • 2.
    提出MDFVT来联合估计单目和立体深度,获得互补的多深度信息以提高深度估计的质量。为了解决粗略的时间融合问题,引入了TEOH,利用多时间交互机制来充分利用时间特征并增强多时间连接操作。
  • 3.
    在Occ3D-nuScenes数据集上的实验表明,我们的方法在几乎不影响推理速度的情况下显著提高了占用预测精度,其性能可与最先进的基于视觉的方法相媲美。

部分摘录

基于视觉的3D占用预测

基于视觉的3D占用预测(Zhang等人,2024年)通过将自动驾驶场景划分为均匀的体素网格并预测每个体素的占用状态和语义标签,提供了强大的几何信息和出色的通用目标识别能力。几种方法推进了这一任务。Wei等人(2023年)通过空间交叉注意力将BEV特征转换为占用特征,从而扩展了BEVFormer(Li等人,2022年)的功能

初步研究

在基于视觉的3D占用预测任务中,输入是一系列时间序列图像{IiRHi×Wi×3},其中i{1,,N表示i个摄像头视图中的N个图像,t{1,,,T表示t个输入帧中的T个帧。每张图像的分辨率由H高度和W宽度定义。此外,还提供了相机内在参数{Ki}和外在参数{Ri|ti]作为辅助输入,以实现坐标变换和深度

实验设置

我们在Occ3D-nuScenes(Tian等人,2024年)数据集上评估了我们的方法,该数据集是专门为占用预测任务设计的基准。基于大规模的nuScenes(Caesar等人,2020年)自动驾驶数据集,Occ3D-nuScenes(Tian等人,2024年)已成为一个著名的基准,特别是在2023年的占用预测竞赛中有所体现。
Occ3D-nuScenes包括1000个自动驾驶场景,分为700个训练场景、150个验证场景和150个

结论

在本文中,我们提出了DepthOcc,这是一种基于视觉输入的3D占用预测器,旨在实现高预测精度和快速推理速度。我们发现了当前实时方法中的信息丢失问题,并通过两个关键组件解决了这个问题:多深度融合视图变换器和时间增强占用头。多深度融合视图变换器估计多个深度,以补偿单深度估计的固有局限性,从而提高

CRediT作者贡献声明

成海茂:撰写 – 审稿与编辑,撰写 – 原稿,可视化,验证,软件,方法论,形式分析,数据整理,概念化。余琴:验证,形式分析,概念化。吴一强:形式分析,概念化。周兴红:形式分析,概念化。朱斌:验证,概念化。刘佳:验证,概念化。潘岩:撰写 – 审稿与编辑,监督,资源,方法论。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。

致谢

本工作得到了国家杰出青年科学基金(授权号:62225308)的支持。作者还感谢所有匿名审稿人和编辑提供的富有洞察力和建设性的评论,这些评论显著提高了本文的整体质量。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号