《International Journal of Remote Sensing》:GMFE-Net: point cloud semantic segmentation with general multi-feature fusion and extraction
引言
随着LiDAR(Light Detection and Ranging)技术的进步和相关传感器的日益普及,获取点云数据变得越来越高效和便捷。然而,由于传感器限制和环境影响,原始点云通常表现出数据量大、不规则、遮挡以及缺乏拓扑信息等特点。这些挑战阻碍了从点云数据中解读场景。因此,开发高效的点云语义分割模型对于应对这些挑战和增强现实世界场景理解至关重要,并已成为自动驾驶、环境感知、数字孪生和智慧城市等领域的关键研究焦点。
在点云理解方面,深度神经网络(DNNs)已展现出强大的特征学习能力。现有的基于DNN的方法可分为三类:基于投影的方法、基于3D体素的方法和基于点的方法。基于投影和基于3D体素的方法通过将不规则的原始数据转换为多视图图像或结构化体素来适应二维卷积神经网络(2D CNNs)。虽然有效,但这些转换增加了计算成本和内存使用。
为了克服这些限制,研究人员开发了直接处理原始数据的方法。PointNet是该类别的开创性工作,利用多层感知机(MLPs)处理无序点云,取得了有希望的分割结果。随后,众多基于点的方法被开发出来。其中,RandLA-Net以其高效率著称,它采用简单的随机采样(RS)代替早期方法中复杂的采样机制,并依赖简单的几何特征——坐标、坐标差和距离——使其能够高速处理大规模3D场景。
然而,RandLA-Net及其衍生网络BAAF-Net、LEARD-Net和NeiEA-NET在解码器阶段依赖转置卷积进行特征上采样,以融合多尺度特征并增加特征图尺寸。转置卷积并非传统卷积的完全逆运算,这不可避免地导致解码器阶段丢失一些细节特征。此外,其架构主要针对几何特征处理进行优化,RGB等属性信息在更深网络层中未被充分利用,同时也缺乏显式建模全局场景上下文的机制。
相关 work
基于点的方法
基于点的方法可分为四类:基于MLP的方法、基于RNN的方法、基于GCN的方法和基于Transformer的方法。其中,基于MLP的架构应用最广泛,它采用共享层,每个点使用相同的网络权重。PointNet是使用MLP处理无序点云的先驱,激励了许多后续网络,如PointNet++、SparseConvNet、KPConv、ShellNet、RandLA-Net和PointMLP。
RNN引入循环连接以允许信息在层间传播,从而更好地理解点间关系。代表性的基于RNN的网络包括3DCNN-DQN-RNN和RSNet。然而,RNN通常面临高计算成本的问题,并常被更具可扩展性的架构(如GCNs和Transformers)所取代。
GCNs可以建模非欧几里得关系,使其非常适合点云。在基于GCN的方法中,节点代表点,边定义它们之间的空间关系。代表性网络包括SPG、DGCNN、SPH3D-GCN、SD-GCN和3DgraphSeg。尽管有效,GCNs通常需要复杂的图构建,并可能遭受高计算开销。
Transformers基于自注意力机制,不依赖于点的顺序,允许进行高效的全局特征学习。代表性网络如PAT、PCT、FlatFormer和Point Transformer。
在这些方法中,基于MLP的方法由于其简单性、易于实现和快速收敛性,仍然是应用最广泛的。随着大规模数据集的可用性,大多数现代基于MLP的模型采用U-Net结构来提取多尺度特征图。本文提出的GMFE-Net遵循这一趋势,采用基于MLP的U-Net架构来增强特征学习和分割精度。
多特征融合与提取
局部特征融合与提取
为了有效提取局部特征,研究人员专注于开发高效的局部邻域表示。因此,几何特征如坐标、坐标差和距离被广泛使用。代表性模型包括ShellNet、RandLA-Net和DG-NET。
为了进一步增强对点云结构的理解,需要集成更多的局部特征。源自RandLA-Net的SCF-Net引入了角度作为额外的几何特征,这提高了分割精度,特别是对于小物体。事实上,高级几何特征的重要性超越了分割领域;例如,最近在点云森林生物量估算中的工作表明,源自分形几何的特征可以显著优于传统指标,这凸显了几何特征工程的普遍价值。
然而,模型仍然难以区分具有相似几何特征的物体,限制了其在某些复杂场景中的有效性。传感器技术的进步使得能够获取越来越多的点云属性。ScanNet、Semantic3D和SensatUrban数据集使用摄影测量或RGB-D相机获取RGB信息。DALES和WHU-Urban3D数据集包含来自机载和移动激光扫描的强度信息。EVO数据集提供镜面角、距离、反射率、回波偏差、回波计数等。尽管RGB特征可以使点云分割更准确,但其他属性的影响研究较少。
许多方法,包括RandLA-Net及其衍生网络,仅专注于提取局部几何特征。RGB仅作为编码器阶段之前的初始输入使用,并且尽管存在残差连接,但随着层数的增加,它们不可避免地会丢失。因此,在我们的GMFE-Unit中,我们集成几何和点云属性特征以防止特征丢失,确保随着网络加深保留更丰富的表示。
全局特征融合与提取
现有方法通常通过采用最大池化或注意力池化等操作来提取全局特征。采用最大池化的模型包括PointNet++和ShellNet。虽然最大池化捕获了最重要的局部特征,但它忽略了邻域区域的信息。受FaSet和RandLA-Net的启发,注意力池化通过同时考虑局部和全局特征对此进行了改进。然而,注意力池化主要增强了局部特征提取,而不是作为一种专用的全局特征提取方法。
为了改进全局特征学习,SCF-Net引入了一个全局上下文特征块,该块计算体积比以提取全局特征。虽然该方法易于实现,但未能集成额外的全局特征。通过使用自适应融合模块,BAAF-Net捕获了不同尺度上的全局特征。LACV-Net通过跨层合并局部特征进一步改进了全局特征学习。但LACV-Net需要在解码前进行多次迭代计算来提取全局特征,影响了计算效率。
基于这些见解,我们的GMFE-Unit采用注意力池化来关注多个局部特征,同时集成GloMFE块进行全局特征提取。
方法
整体架构
本节介绍GMFE-Net,一种为大规模点云语义分割设计的新型网络。GMFE-Net的整体框架遵循经典的U-Net架构,包含一个编码器阶段以学习层次特征和一个解码器阶段以恢复逐点预测。
GMFE-Net的关键创新是一个强大且多功能的模块,我们称之为通用多特征融合与提取单元(GMFE-Unit),该单元被应用于编码器和解码器的每个阶段。该单元旨在增强特征提取并减轻信息丢失,特别是在解码阶段。
网络输入是一个形状为(N, 3+3)的点云,其中N是点的数量。前3个通道代表坐标(x, y, z),后3个通道保留给属性特征。这种固定大小的输入允许一致且通用的网络架构。为了确保数值稳定性和一致的特征缩放,所有属性特征在数据预处理期间被归一化到[0, 1]范围。属性通道根据数据源和实验设置进行填充:
- •
对于3通道属性:当使用RGB数据时,例如来自SensatUrban数据集,直接使用这三个通道。
- •
对于单通道属性:当使用单通道属性时,例如来自DALES数据集的强度,我们复制其归一化值以创建3通道输入。
- •
对于多个可用属性(EVO数据集):我们的研究旨在评估不同属性的个体影响。因此,对于EVO数据集,我们对每个属性进行单独实验。在每次运行中,只选择一个属性(例如镜面角或距离),然后平铺到三个通道作为网络输入。
- •
对于没有属性的实验:当处理不使用属性特征的情况时,我们将属性通道设置为统一值0.5。
编码器由四个层次层组成,旨在学习多尺度特征。在每一层,过程包括两个步骤:(1) 下采样:首先使用随机采样逐步下采样输入点云,在每个阶段减少点的数量(从N到N/4, N/16, N/64, 最后N/256);(2) 特征提取:下采样后,应用GMFE-Unit提取特征。同时,随着空间分辨率的降低,特征维度(即通道数)增加(例如从64到128, 256, 和512)。这种分层过程允许网络系统地扩展其感受野并从原始数据中学习更抽象的语义表示。
解码器镜像编码器的四层结构,负责将特征图恢复到原始点云分辨率以进行最终逐点预测。每个解码器层的过程如下:(1) 上采样:首先使用最近邻插值对前一层(更深层)的特征进行上采样以增加其空间分辨率;(2) 特征精炼:拼接后的特征随后由GMFE-Unit处理。通过替换传统的转置卷积,我们对GMFE-Unit的应用将解码器从一个被动的上采样工具转变为一个主动的特征精炼和融合引擎。这显著减轻了信息丢失并提高了最终分割的质量。
最后,网络将精炼后的特征通过三个全连接层。最终的全连接层具有形状(N, C)的输出,其中C代表语义类别的总数,以产生最终的分割结果。
GMFE-Unit
在描述了上述整体网络架构之后,本节详细介绍了我们的核心创新——GMFE-Unit。虽然其组件基于基本的深度学习操作,但GMFE-Unit的新颖性源于其协同设计,该设计将三个不同的特征处理流——局部多特征融合、基于注意力的加权和全局上下文提取——集成到一个强大的模块中,旨在解决点云分割中的关键挑战。
局部多特征融合与提取(LocMFE)块
局部几何特征是从局部点集中提取的,该集合包含下采样(或上采样)的代表性点及其K近邻点。该集合由坐标值定义。给定一个具有坐标(xi, yi, zi)的代表性点pi,其K个最近邻点记为{pi1, pi2, ?, pik, ?, piK}。该集合中的第k个点具有坐标(xik, yik, zik)。通过将代表性点的坐标减去其K近邻点的坐标,我们得到相对坐标{pr1, pr2, ?, prk, ?, prK},其中prk的坐标由(xrk, yrk, zrk)给出。
相对坐标作为局部几何特征的基础,使得能够计算distrk,即代表性点与其KNN点之间的距离。选择这些特征是因为坐标差或距离分布反映了局部密度和结构特性。均匀的值可能表示平坦表面,而不规则的差异可能暗示复杂的几何形状。
同时,象限角φrk和垂直角θrk可以通过(xrk, yrk, zrk)计算。此外,从邻域点集{pi1, pi2, ?, pik, ?, piK}中,通过对邻域坐标取平均得到质心(xc, yc, zc)。然后使用质心与代表性点(xi, yi, zi)之间的差值来计算αm和βm,分别使用象限角和垂直角的相同公式。
以第k个邻域点为例,角度平移操作定义为φrk'= φrk- αm和 θrk'= θrk- βm。这种变换突出了局部点集之间的角度差异,产生了相对角度特征{φr1', φr2', ?, φrk', ?, φrK'} 和 {θr1', θr2', ?, θrk', ?, θrK'}。上述角度处理可以降低局部特征的方向敏感性,进而提高分割性能。
尽管DNNs可以直接从坐标、相对坐标、距离、角度等学习点云特征,但作为网络的补充输入,这些特征可以缓解数据集中对小样本数据的依赖,特别是在样本分布极不平衡的情况下。仅以可忽略的计算成本增加为代价,网络的泛化能力得到了提高。
我们将坐标、距离、角度及其衍生特征统称为几何特征。我们的GMFE-Unit不仅融合几何特征,还集成属性如RGB、强度和回波偏差及其偏差值。包含属性偏差至关重要,因为随着下采样的加深,代表性点的偏差值增加,揭示了不同物体之间的拓扑关系。然后,GMFE-Unit使用共享MLPs处理它们,自动提取有用的局部特征图。我们设计的一个关键方面是,这种几何和属性特征的并发融合在编码器和解码器的每一层都发生,防止了更深层网络中常见的属性信息逐渐丢失。
注意力池化块
对于从邻域点集提取的一组特征fi