《Pattern Recognition》:Panoptic-VSNet: Visual-Semantic Prior Knowledge-Driven Multimodal 3D Panoptic Segmentation
编辑推荐:
自主驾驶场景中的多模态点云语义分割方法,提出渐进语义对齐模块实现图像与点云的语义关联,设计实例感知超像素融合模块提升边界精度,创新动态自适应网络优化上下文建模。实验表明在NuScenes和SemanticKITTI数据集上显著优于现有方法。
Xiao Li|Hui Li|Xiangzhen Kong|Yuang Ji|Zhiyu Liu|Hao Liu
中国青岛科技大学数据科学学院
摘要
精确且鲁棒的感知对于确保自动驾驶车辆的安全运行至关重要。然而,当前的方法受到稀疏的图像-LiDAR对齐、注释不足以及结构差异建模效果不佳的限制,导致语义退化和泛化能力不足。因此,我们提出了Panoptic-VSNet,这是一种基于视觉-语义先验知识的多模态3D全景分割网络。首先,我们设计了一个渐进式融合语义对齐模块,该模块有效地整合了来自大型视觉-语言模型的视觉先验特征,建立了点-语义区域关联,从而增强了语义感知能力。其次,我们提出了一个具有实例感知能力的超像素跨模态融合模块,该模块结合了实例先验知识,形成了具有空间精度和类别一致性的统一表示。最后,我们引入了一个具有相关性感知能力的全景分割网络,该网络在动态捕获上下文信息的同时减少了参数数量,并增强了局部细节,从而提高了全景感知能力。在基准数据集上的实验评估表明,Panoptic-VSNet的性能优于现有的最先进方法。代码可访问于:
https://github.com/lixiao0125/panoptic-vsnet.git。
引言
技术的进步正在推动环境感知的转变,重点从局部特征检测转向全面的场景理解。作为3D场景理解的核心任务之一,点云全景分割在各种实际应用中发挥着重要作用,包括自动驾驶、机器人导航和3D重建。这项任务将场景元素分为两类:Thing和Stuff。Thing代表可数的前景对象,如汽车和行人。Stuff代表不可数的背景区域,如道路、植被和建筑物。语义分割为每个点分配一个类别标签,包括前景对象和背景区域,如图1(a)所示。实例分割专门用于识别前景对象的类别及其对应的实例ID,如图1(b)所示。通过结合这两种方法,全景分割提供了点级的语义类别标签和实例ID,构建了一个结构清晰且语义丰富的3D全景表示,如图1(c)所示。这种对全局语义理解和局部实例区分的双重要求使得这项任务具有高度挑战性和综合性,其分割精度直接影响下游任务(包括路径规划和决策控制)的稳定性和可靠性。
3D全景分割方法最初仅使用LiDAR数据。研究[1]、[2]、[3]利用3D点云的精确几何属性来实现全景分割。然而,仅依赖LiDAR的感知任务在区分形状相似的对象时面临挑战,因为缺乏纹理信息。最近,受到相机和LiDAR模态互补优势的启发,越来越多的研究[4]、[5]、[6]倾向于使用多模态3D全景分割方法。尽管如此,仍存在几个关键问题:(1) LiDAR数据固有的物理稀疏性导致只有少量图像特征可以直接与3D点匹配,这会导致图像中语义信息利用率低,影响场景内语义变化的精确识别,从而导致语义分割错误,如图2(a)所示。(2) 标注样本的不足限制了模型的泛化能力。此外,跨模态融合中缺乏实例级语义表示会导致点云实例分割ID错误,如图2(b)所示。(3) 对于具有复杂结构的对象边界和连接处,需要较小的感受野来实现精确感知,而对于平面和均匀结构,则需要更宽的上下文视野。使用固定核大小的稀疏卷积神经网络进行特征表示学习会导致复杂区域的信息冗余和平面区域中的上下文线索不足,最终限制了分割性能,如图2(c)所示。
为了解决这些问题,我们提出了Panoptic-VSNet,这是一种用于全景分割的多模态协同感知网络,系统地整合了视觉外观特征、语义先验知识和几何结构信息。我们的主要贡献包括:
- (1)
我们设计了一个渐进式融合语义对齐模块。该模块利用视觉-语言模型建立图像嵌入特征和类别文本嵌入特征之间的概率映射关系,将“点-像素”的一对一映射扩展为“点-语义区域”的一对多关联,这一过程由类别激活图引导,有效减少了多模态融合过程中的语义信息损失,提高了分割性能。
- (2)
我们提出了一个具有实例感知能力的超像素跨模态融合模块。该模块结合了图像全景分割掩码和文本嵌入特征,构建了“视觉-文本”联合特征,提高了实例边界定位的准确性,同时保持了语义一致性,并增强了建模类内差异的能力,从而提高了跨模态实例级语义表示的准确性。
- (3)
我们引入了一个具有相关性感知能力的全景分割网络。通过引入动态核生成机制和多尺度自适应聚合器,我们实现了稀疏区域上下文捕获和密集区域局部细节的增强,有效减少了网络参数数量,同时提高了全景分割的准确性。
相关工作
相关研究
自Kirillov等人于2019年系统提出全景分割技术以来,这项技术已逐渐从图像领域扩展到点云和多模态领域。
方法
我们提出了Panoptic-VSNet,其整体架构如图3所示。在多模态数据编码和融合阶段,LiDAR分支应用圆柱形体素划分和基于MLP的编码来处理点云。同时,图像分支通过两个模块聚合视觉-语义先验知识:渐进式融合语义对齐(PFSA)模块和实例感知超像素跨模态融合(IASC)模块。我们使用...
数据集和评估指标
NuScenes [32] 是专为自动驾驶研究设计的。它包含一个32束LiDAR传感器、5个雷达传感器和6个RGB相机,以及全面的地图信息,共捕获了1000个真实世界的驾驶场景。
SemanticKITTI [33] 是一个开创性的室外数据集。它包含一个64束LiDAR传感器和两个前置摄像头。该数据集由22个数据序列组成,分为三部分:10个用于训练,1个用于验证,11个用于测试。
评估指标。
结论与未来工作
本研究提出了Panoptic-VSNet,这是一种新颖的多模态架构,将视觉-语义先验知识整合到点云全景分割中。通过嵌入来自视觉-语言模型的知识,我们的方法弥合了LiDAR和图像模态之间的语义差距,增强了语义理解和实例区分能力。所提出的架构包括三个关键组成部分:
Xiao Li:撰写——原始草案、可视化、方法论、研究。
Hui Li:撰写——审阅与编辑、研究、资金获取。
Xiangzhen Kong:撰写——审阅与编辑、监督、资金获取。
Yuang Ji:撰写——原始草案、可视化、验证、数据管理。
Zhiyu Liu:验证、方法论、数据管理。
Hao Liu:资源获取、研究、资金获取。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
致谢
本工作得到了中国国家重点研发计划(编号2023YFF 0612100)、山东省自然科学基金(编号ZR2024MF023)以及青岛市关键技术研究与产业化示范项目(编号23-7-2-qljh-4-gx、编号24-1-2-qljh-19-gx)的支持。