GMFE-Net：一种通过通用多特征融合与提取提升点云语义分割精度的创新网络架构及其在多模态3D数据处理中的意义分析

《International Journal of Remote Sensing》：GMFE-Net: point cloud semantic segmentation with general multi-feature fusion and extraction

【字体：大中小】 时间：2025年12月28日 来源：International Journal of Remote Sensing 2.6

编辑推荐：

　　本文提出了一种用于点云语义分割的新型网络GMFE-Net（General Multi-feature Fusion and Extraction Net），其核心创新在于设计了一个通用多特征融合与提取单元（GMFE-Unit）。该单元通过局部多特征融合（LocMFE）、注意力池化（Attention-pooling）和全局多特征融合（GloMFE）三个组件的协同工作，有效融合几何特征（坐标、距离、角度等）与属性特征（RGB、强度等），并利用注意力机制加权关键信息。与主流U-Net架构不同，GMFE-Net将GMFE-Unit同时应用于编码器和解码器阶段，替代传统的转置卷积（transposed convolution），使解码器成为主动的特征精炼引擎，显著减轻了上采样过程中的信息丢失。在SensatUrban、DALES和EVO三个不同来源数据集上的评估表明，该网络不仅实现了高分割精度，尤其在代表性不足的类别上提升显著，还首次系统分析了多种点云属性特征对分割性能的影响机理，为多模态3D数据处理提供了重要见解。代码已开源。

引言

随着LiDAR（Light Detection and Ranging）技术的进步和相关传感器的日益普及，获取点云数据变得越来越高效和便捷。然而，由于传感器限制和环境影响，原始点云通常表现出数据量大、不规则、遮挡以及缺乏拓扑信息等特点。这些挑战阻碍了从点云数据中解读场景。因此，开发高效的点云语义分割模型对于应对这些挑战和增强现实世界场景理解至关重要，并已成为自动驾驶、环境感知、数字孪生和智慧城市等领域的关键研究焦点。

在点云理解方面，深度神经网络（DNNs）已展现出强大的特征学习能力。现有的基于DNN的方法可分为三类：基于投影的方法、基于3D体素的方法和基于点的方法。基于投影和基于3D体素的方法通过将不规则的原始数据转换为多视图图像或结构化体素来适应二维卷积神经网络（2D CNNs）。虽然有效，但这些转换增加了计算成本和内存使用。

为了克服这些限制，研究人员开发了直接处理原始数据的方法。PointNet是该类别的开创性工作，利用多层感知机（MLPs）处理无序点云，取得了有希望的分割结果。随后，众多基于点的方法被开发出来。其中，RandLA-Net以其高效率著称，它采用简单的随机采样（RS）代替早期方法中复杂的采样机制，并依赖简单的几何特征——坐标、坐标差和距离——使其能够高速处理大规模3D场景。

然而，RandLA-Net及其衍生网络BAAF-Net、LEARD-Net和NeiEA-NET在解码器阶段依赖转置卷积进行特征上采样，以融合多尺度特征并增加特征图尺寸。转置卷积并非传统卷积的完全逆运算，这不可避免地导致解码器阶段丢失一些细节特征。此外，其架构主要针对几何特征处理进行优化，RGB等属性信息在更深网络层中未被充分利用，同时也缺乏显式建模全局场景上下文的机制。

方法

整体架构

本节介绍GMFE-Net，一种为大规模点云语义分割设计的新型网络。GMFE-Net的整体框架遵循经典的U-Net架构，包含一个编码器阶段以学习层次特征和一个解码器阶段以恢复逐点预测。

GMFE-Net的关键创新是一个强大且多功能的模块，我们称之为通用多特征融合与提取单元（GMFE-Unit），该单元被应用于编码器和解码器的每个阶段。该单元旨在增强特征提取并减轻信息丢失，特别是在解码阶段。

网络输入是一个形状为(N, 3+3)的点云，其中N是点的数量。前3个通道代表坐标(x, y, z)，后3个通道保留给属性特征。这种固定大小的输入允许一致且通用的网络架构。为了确保数值稳定性和一致的特征缩放，所有属性特征在数据预处理期间被归一化到[0, 1]范围。属性通道根据数据源和实验设置进行填充：

•
对于3通道属性：当使用RGB数据时，例如来自SensatUrban数据集，直接使用这三个通道。
•
对于单通道属性：当使用单通道属性时，例如来自DALES数据集的强度，我们复制其归一化值以创建3通道输入。
•
对于多个可用属性（EVO数据集）：我们的研究旨在评估不同属性的个体影响。因此，对于EVO数据集，我们对每个属性进行单独实验。在每次运行中，只选择一个属性（例如镜面角或距离），然后平铺到三个通道作为网络输入。
•
对于没有属性的实验：当处理不使用属性特征的情况时，我们将属性通道设置为统一值0.5。

编码器由四个层次层组成，旨在学习多尺度特征。在每一层，过程包括两个步骤：(1) 下采样：首先使用随机采样逐步下采样输入点云，在每个阶段减少点的数量（从N到N/4, N/16, N/64, 最后N/256）；(2) 特征提取：下采样后，应用GMFE-Unit提取特征。同时，随着空间分辨率的降低，特征维度（即通道数）增加（例如从64到128, 256, 和512）。这种分层过程允许网络系统地扩展其感受野并从原始数据中学习更抽象的语义表示。

解码器镜像编码器的四层结构，负责将特征图恢复到原始点云分辨率以进行最终逐点预测。每个解码器层的过程如下：(1) 上采样：首先使用最近邻插值对前一层（更深层）的特征进行上采样以增加其空间分辨率；(2) 特征精炼：拼接后的特征随后由GMFE-Unit处理。通过替换传统的转置卷积，我们对GMFE-Unit的应用将解码器从一个被动的上采样工具转变为一个主动的特征精炼和融合引擎。这显著减轻了信息丢失并提高了最终分割的质量。

最后，网络将精炼后的特征通过三个全连接层。最终的全连接层具有形状(N, C)的输出，其中C代表语义类别的总数，以产生最终的分割结果。

GMFE-Unit

在描述了上述整体网络架构之后，本节详细介绍了我们的核心创新——GMFE-Unit。虽然其组件基于基本的深度学习操作，但GMFE-Unit的新颖性源于其协同设计，该设计将三个不同的特征处理流——局部多特征融合、基于注意力的加权和全局上下文提取——集成到一个强大的模块中，旨在解决点云分割中的关键挑战。

局部多特征融合与提取（LocMFE）块

局部几何特征是从局部点集中提取的，该集合包含下采样（或上采样）的代表性点及其K近邻点。该集合由坐标值定义。给定一个具有坐标(x_i, y_i, z_i)的代表性点p_i，其K个最近邻点记为{p_i¹, p_i², ?, p_i^k, ?, p_i^K}。该集合中的第k个点具有坐标(x_i^k, y_i^k, z_i^k)。通过将代表性点的坐标减去其K近邻点的坐标，我们得到相对坐标{p_r¹, p_r², ?, p_r^k, ?, p_r^K}，其中p_r^k的坐标由(x_r^k, y_r^k, z_r^k)给出。

相对坐标作为局部几何特征的基础，使得能够计算dist_r^k，即代表性点与其KNN点之间的距离。选择这些特征是因为坐标差或距离分布反映了局部密度和结构特性。均匀的值可能表示平坦表面，而不规则的差异可能暗示复杂的几何形状。

同时，象限角φ_r^k和垂直角θ_r^k可以通过(x_r^k, y_r^k, z_r^k)计算。此外，从邻域点集{p_i¹, p_i², ?, p_i^k, ?, p_i^K}中，通过对邻域坐标取平均得到质心(x_c, y_c, z_c)。然后使用质心与代表性点(x_i, y_i, z_i)之间的差值来计算α_m和β_m，分别使用象限角和垂直角的相同公式。

以第k个邻域点为例，角度平移操作定义为φ_r^k'= φ_r^k- α_m和 θ_r^k'= θ_r^k- β_m。这种变换突出了局部点集之间的角度差异，产生了相对角度特征{φ_r^1', φ_r^2', ?, φ_r^k', ?, φ_r^K'} 和 {θ_r^1', θ_r^2', ?, θ_r^k', ?, θ_r^K'}。上述角度处理可以降低局部特征的方向敏感性，进而提高分割性能。

尽管DNNs可以直接从坐标、相对坐标、距离、角度等学习点云特征，但作为网络的补充输入，这些特征可以缓解数据集中对小样本数据的依赖，特别是在样本分布极不平衡的情况下。仅以可忽略的计算成本增加为代价，网络的泛化能力得到了提高。

我们将坐标、距离、角度及其衍生特征统称为几何特征。我们的GMFE-Unit不仅融合几何特征，还集成属性如RGB、强度和回波偏差及其偏差值。包含属性偏差至关重要，因为随着下采样的加深，代表性点的偏差值增加，揭示了不同物体之间的拓扑关系。然后，GMFE-Unit使用共享MLPs处理它们，自动提取有用的局部特征图。我们设计的一个关键方面是，这种几何和属性特征的并发融合在编码器和解码器的每一层都发生，防止了更深层网络中常见的属性信息逐渐丢失。

注意力池化块

对于从邻域点集提取的一组特征f_i

引言

相关 work

基于点的方法

多特征融合与提取

局部特征融合与提取

全局特征融合与提取

方法

整体架构

GMFE-Unit

局部多特征融合与提取（LocMFE）块

注意力池化块

热点排行

新闻专题