通过两阶段表示实现快速的语义场景补全

《Neurocomputing》:Fast semantic scene completion via two-stage representation

【字体: 时间:2025年08月21日 来源:Neurocomputing 6.5

编辑推荐:

  语义场景补全两阶段方法Fast-SSC通过Hybrid Parallel Dilated Block提取多尺度几何特征完成补全,结合空间感知增强注意力机制的BEV网络实现快速分割,在SemanticKITTI数据集上达到41.8 FPS并最优性能。

  
Musen Lin|Wenguang Wang
北京航空航天大学电子信息工程学院,中国北京 100191

摘要

语义场景补全(或称占用预测)旨在基于不完整的传感器观测数据同时完成和分割场景。由于其全面的感知能力,这项技术正成为3D场景理解领域的一个趋势。然而,语义场景补全方法需要大量的计算资源,这限制了其在现实世界中的应用。在这项工作中,我们提出了一种高效的两阶段快速语义场景补全方法,称为Fast-SSC。在第一阶段,我们设计了一个基于混合并行膨胀块的几何补全网络(Geometric Completion Network),用于提取多尺度几何特征并完成场景构建。在第二阶段,我们采用了具有空间感知增强注意力机制(Spatial Awareness Enhancement Attention mechanism)的鸟瞰图网络(Bird’s Eye View network)来实现快速场景分割。在SemanticKITTI数据集上的广泛实验表明,Fast-SSC取得了先进的性能。具体来说,Fast-SSC在基于鸟瞰图的方法中排名第一,并且在NVIDIA GeForce GTX 1080 Ti上可以以41.8 FPS的速度运行。这些结果表明,我们的Fast-SSC能够高效利用场景信息,并具有实际应用的潜力。代码可在以下链接获取:https://github.com/six-wood/Fast-SSC

引言

语义场景补全(SSC)将连续的3D空间离散化为由密集体素(voxels)组成的网格体积,在VR/AR、机器人导航和自动驾驶等领域有广泛的应用[1]、[2]。其以网格为中心的表示方式对开放集和不规则形状的对象具有很强的泛化能力[3]。根据输入数据的类型,SSC或占用感知方法通常可以分为基于激光雷达(LiDAR)的方法和基于视觉的方法[4]。与基于激光雷达的方法相比,基于视觉的方法利用了图像中的丰富纹理和语义信息,因此更具成本效益和灵活性[3]。然而,由于激光雷达提供的精确深度信息,基于激光雷达的方法在SSC方面仍然具有更高的精度[1]。在这项工作中,我们使用激光雷达点云作为输入数据。图1展示了使用激光雷达点云数据得到的SSC结果。
尽管在3D场景理解方面具有显著优势,但SSC仍然严重依赖计算资源。大多数SSC方法[5]、[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]都采用通用3D卷积技术,虽然在性能上表现优异,但代价是巨大的计算资源消耗。对于其他3D场景理解任务,稀疏卷积算法[14]、[15]、[16]、[17]通过使用哈希表或八叉树结构成功减少了GPU内存使用并提高了计算速度。然而,SSC任务需要生成新的体素,这些稀疏卷积算法在处理新生成的体素时需要进行代价高昂的索引重排,从而显著增加处理时间。
为了解决上述问题,我们提出了一种高效的两阶段快速语义场景补全方法Fast-SSC。该方法包括几何补全阶段和场景分割阶段。在几何补全阶段,网络提取多尺度特征并完成场景构建;在几何补全网络中,我们设计了一个名为混合并行膨胀块(Hybrid Parallel Dilated Block,HPDB)的无下采样模块,以捕获详细的多尺度几何特征。我们的HPDB结合了多尺度膨胀卷积,进一步平衡了模型性能和计算效率。在实现过程中,我们遵循了混合膨胀卷积(Hybrid Dilated Convolution,HDC)[18]和DSNet[19]的原则,精心选择了HPDB中的膨胀率,以避免“网格化”现象。
几何补全完成后,场景分割网络需要处理大量的体素,这使得实时实现变得具有挑战性。受到鸟瞰图(Bird’s Eye View,BEV)方法的启发,LMSCNet[20]、MotionSC[21]、SSA-SC[22]和SSC-RS[23]采用2D BEV网络作为骨干来实现实时SSC。BEV网络已在对象检测[24]、[25]、[26]、[27]和语义分割[28]、[29]、[30]中得到广泛应用。然而,与基于点的方法和基于体素的方法相比,BEV方法中使用的2D投影限制了它们的空间感知能力[31]。为了解决这个问题,我们为BEV网络设计了空间感知增强注意力(Spatial Awareness Enhancement Attention,SAEA)机制。利用几何先验,SAEA能够有效提升BEV网络的空间感知能力。
总结来说,我们工作的主要贡献如下:
  • 构建了带有HPDB和辅助补全头的几何补全网络,用于提取详细的多尺度几何特征并完成场景构建。HPDB通过在不同尺度上应用3D膨胀卷积来平衡精度和计算效率。
  • 提出了SAEA机制,以增强BEV网络的三维空间感知能力。该架构基于BEV特征的3D形状计算注意力图,通过少量参数即可提升BEV网络的空间感知能力。
  • 在SemanticKITTI数据集上的实验结果表明,所提出的Fast-SSC在SSC指标和运行速度上均优于基于BEV的方法。
  • 部分内容摘录

    语义场景补全

    语义场景补全的概念最初由Song等人[5]提出。他们强调了几何结构与语义信息之间的紧密联系,并提出了一种端到端的方法SSCNet。继SSCNet之后,ScanComplete[6]引入了一种从粗到细的推理策略,能够产生具有大感受野的高分辨率输出。VD-CRF[7]通过使用密集的CRF模型获得了更好的结果。SATNet[8]详细描述了SSC的过程

    方法

    语义场景补全的目标是基于不完整的输入数据推断出密集的语义体素。具体来说,给定一个点云,网络需要为体素空间中的每个体素分配语义标签,其中表示点云中的点数,表示点云的属性维度,表示类别数量,分别表示体素空间的长度、宽度和高度。在我们的工作中,点云的属性包括3D坐标等

    实验

    在本节中,我们首先介绍了使用的数据集、语义补全评估指标以及模型实现细节。然后,我们详细比较了我们的方法与其他公开方法。最后,我们进行了一系列消融研究,以精确评估语义场景补全中每个组件的影响。

    结论与未来工作

    语义场景补全是3D场景理解中的关键任务。在这项研究中,我们提出了一种新颖的两阶段快速语义场景补全方法Fast-SSC,该方法将语义场景补全分为几何补全和场景分割两个阶段。在几何补全阶段,HPDB提取详细的多尺度几何特征,并有效平衡了网络的精度和速度。在场景分割阶段,SAEA增强了BEV的三维空间感知能力

    CRediT作者贡献声明

    Musen Lin:撰写 – 审稿与编辑、撰写 – 原稿撰写、可视化、验证、方法论。Wenguang Wang:撰写 – 审稿与编辑、验证、项目管理、资金获取、方法论。

    利益冲突声明

    作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:
    Wenguang Wang表示获得了中国航空科学基金会的财务支持。如果还有其他作者,他们声明没有已知的可能会影响本文所述工作的财务利益或个人关系。
    Musen Lin于2021年在中国北京航空航天大学获得学士学位,目前正在同一所大学攻读信号与信息处理博士学位。他的研究兴趣包括点云处理和3D场景理解。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 急聘职位
    • 高薪职位

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号