3DLST:用于激光雷达点云场景分割的 3D 可学习超标记 Transformer

【字体: 时间:2025年05月27日 来源:International Journal of Applied Earth Observation and Geoinformation 7.6

编辑推荐:

  针对大规模 LiDAR 点云场景分割中高效 Transformer 的发展局限,研究人员提出 3DLST 框架。其含动态超标记优化(DSO)、交叉注意力引导上采样(CAU)模块及 W-net 架构,在 MS-LiDAR(平均 F?分数 89.3%)和 DALES(mIoU 80.2%)表现 SOTA,效率提升 5 倍。

  在自动驾驶、城市规划等领域,精准高效的激光雷达(LiDAR)点云场景分割至关重要。传统卷积神经网络(CNNs)受限于局部归纳偏置,难以捕捉全局上下文,而 3D Transformer 虽能建模长距离依赖,但其自注意力机制的二次计算复杂度导致处理大规模点云时效率低下、内存消耗大。此外,现有基于超点(supepoint)的 Transformer 方法依赖初始点特征生成静态超点,存在预处理耗时、语义特征表示能力不足等问题。为突破这些瓶颈,研究人员开展了针对 LiDAR 点云场景分割的高效 3D Transformer 框架研究。
中国研究人员提出了一种名为 3D 可学习超标记 Transformer(3DLST)的新型框架,相关成果发表在《International Journal of Applied Earth Observation and Geoinformation》。该研究通过创新的模块设计和架构优化,显著提升了点云分割的精度与效率,为 LiDAR 数据处理提供了新的技术路径。

研究主要采用以下关键技术方法:

  • 动态超标记优化(DSO)模块:引入可学习超标记,通过硬分配交叉注意力机制实现基于多级深度特征的动态聚类优化,避免传统超点生成的耗时预处理。
  • 交叉注意力引导上采样(CAU)模块:利用 Transformer 的长距离依赖建模能力,通过交叉注意力图(CAM)实现基于语义相似性的高效上采样。
  • W-net 架构:替代传统 U-net,通过双模块层级结构实现特征学习与重构,增强特征交互的及时性。

实验结果


4.2 机载 MS-LiDAR 数据集


在包含 6 类地物的 MS-LiDAR 数据集上,3DLST 取得平均 F?分数 89.3% 的 SOTA 性能。其中,建筑、树木类的 F?分数分别达 98.2%、99.2%。与 PatchFormer 等方法相比,3DLST 的延迟仅为 11.7 ms,效率提升超 5 倍。混淆矩阵显示,土壤类因与道路、草地几何相似导致分割精度较低(F?=66.8%),但整体精度(OA=95.4%)和平均交并比(mIoU=82.3%)均显著优于现有方法。

4.3 DALES 数据集


在包含 8 类地物的 DALES 数据集上,3DLST 以 OA=97.6%、mIoU=80.2% 的表现领先。其中,地面(97.6%)、电力线(83.1%)、围栏(66.7%)等类别的交并比(IoU)突出。尽管卡车类因与轿车几何相似及类别不平衡导致 IoU 仅 41.3%,但整体性能表明 3DLST 在航空 LiDAR 数据中具有强泛化能力。

4.4 Toronto?3D 数据集


在车载移动激光扫描数据集上,3DLST 的 OA 达 95.8%(无 RGB)和 97.2%(含 RGB),但 mIoU 略低于 SOTA 方法。分析认为,该数据集点云密度不均(道路附近密集、远处稀疏)挑战了动态超标记的聚类稳定性,揭示了模型在处理密度失衡场景时的局限性。

4.5 消融实验


  • DSO 模块:将 CAM 生成中的 argmax 替换为 softmax 导致平均 F?分数下降 2.2%,验证硬分配对聚类精度的重要性;超标记数量 S=512 时性能最佳,过少或过多均导致特征表示不足。
  • DFE 模块:移除后 mIoU 从 82.3% 降至 71.7%,表明深度特征增强对语义建模的关键作用。
  • W-net 架构:相比 U-net,W-net 的 mIoU 提升 11.4%,证明其更适合 Transformer 的特征学习模式。

结论与讨论


3DLST 通过动态超标记优化、交叉注意力引导上采样和 W-net 架构的协同创新,在 LiDAR 点云场景分割中实现了精度与效率的双重突破。其可学习超标记机制摆脱了静态超点的局限性,动态优化过程显著提升语义同质性聚类能力;CAU 模块与 W-net 架构则通过高效特征交互增强了重建精度。在 MS-LiDAR 和 DALES 数据集上的 SOTA 表现,验证了其在真实场景中的有效性和鲁棒性。

尽管在点云密度不均的 Toronto?3D 数据集上性能受限,但 3DLST 为后续研究提供了重要启示:未来可通过超标记导向的数据预处理和自注意力机制优化,进一步提升模型对复杂场景的适应性。该研究不仅推动了 3D Transformer 在遥感领域的应用,也为点云处理中的效率与精度平衡问题提供了新范式,在自动驾驶、环境监测等领域具有广阔应用前景。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号