SCENE-Net:基于群等变非扩张算子的可解释低资源三维杆状结构检测新方法

《Computer Vision and Image Understanding》:SCENE-Net: Geometric induction for interpretable and low-resource 3D pole detection with Group-Equivariant Non-Expansive Operators

【字体: 时间:2025年10月29日 来源:Computer Vision and Image Understanding 3.5

编辑推荐:

  本文推荐一项发表于《Computer Vision and Image Understanding》的研究。为解决三维点云语义分割中黑箱模型缺乏可解释性及资源消耗大的问题,研究人员开展了名为SCENE-Net的主题研究。该模型利用群等变非扩张算子(GENEOs)作为几何先验,仅用11个可训练参数,在电力线支撑塔检测任务中实现了高精度、强抗噪性及卓越的参数效率,为低资源环境下的可信赖三维场景理解提供了新范式。

  
在自动驾驶、医疗影像分析等高风险领域,深度学习模型的应用日益广泛,但其“黑箱”特性使得决策过程难以理解,成为制约其可信赖性的关键瓶颈。尤其是在三维点云语义分割任务中,现有的可解释性方法多为事后解释,缺乏对模型内在机制的理解。同时,主流的基于Transformer或复杂卷积神经网络的模型通常需要巨大的计算资源和数百万参数,这在资源受限的边缘设备(如无人机)上部署面临严峻挑战。三维点云本身具有无序、稀疏和几何结构复杂的特点,如何设计一个既高效又可解释的模型,成为当前计算机视觉领域亟待解决的问题。
为了解决上述问题,由Diogo Lavado等人组成的研究团队在《Computer Vision and Image Understanding》期刊上发表了他们的最新研究成果。他们提出了一种名为SCENE-Net(Signature geometric equivariant non-expansive operator network)的新型白箱模型,该模型作为一种概念验证,旨在实现低资源消耗下的可解释三维点云分割。SCENE-Net的核心创新在于利用了群等变非扩张算子(Group Equivariant Non-Expansive Operators, GENEOs)这一数学框架,将几何先验知识作为内在偏置嵌入到模型中。
为了开展研究,作者主要采用了以下关键技术方法:首先,他们构建了基于体素的三维点云表示,将输入数据离散化。模型的核心是一个GENEO层,该层包含多个参数化的GENEO算子,每个算子由具有明确几何意义的形状参数(如圆柱体的半径、高度)定义,这些参数通过反向传播从数据中学习。这些GENEO算子(包括圆柱体GENEO、箭头GENEO和负球体GENEO)被设计为对特定的几何变换群(如平移和绕Z轴旋转)具有等变性。最后,通过凸组合将这些算子的输出融合成一个单一的观察者,并将其转化为每个体素属于目标类别(如电力线塔)的概率。研究使用的数据集包括专门用于电力线塔检测的TS40K数据集和广泛使用的SemanticKITTI基准数据集,以评估模型在特定任务和通用场景下的性能。
4.1. 概述
SCENE-Net的流程始于将输入点云体素化。随后,体素数据被送入GENEO层,其中每个GENEO算子(本质上是具有特定几何形状内核的卷积算子)独立地对输入进行卷积操作。这些算子的输出通过凸组合权重进行融合,形成一个复杂的GENEO观察者。由于GENEO的凸组合仍然是GENEO,因此最终的观察者保留了每个算子的等变性。最后,通过一个包含双曲正切(tanh)和线性整流单元(ReLU)的非线性变换,将观察者的几何分析结果转化为每个体素的分类概率。
4.2. 用于电力线塔识别的几何先验编码
本研究针对电力线支撑塔的几何特性,专门设计了三种GENEO核函数。圆柱体GENEO用于捕捉塔结构的垂直柱状特性;箭头GENEO结合了圆柱体和圆锥体,以区分塔架与其他垂直结构(如树木),并能识别电线与塔架相交的多种角度;负球体GENEO则用于抑制植被等常见的球形结构,减少误检。这些核函数的参数(如半径、高度、倾斜度)都具有明确的几何解释,并通过学习得到。
5.2.1. RQ1:SCENE-Net的可解释性
研究结果表明,SCENE-Net的11个可训练参数(包括形状参数和凸组合权重)都具有内在的可解释性。例如,分析发现负球体GENEO在最终模型输出中的权重占比达到76.34%,这表明它在抑制非目标结构方面发挥了关键作用。通过对特定预测的事后分析,可以清晰地看到每个几何算子对最终检测结果的贡献,例如箭头核主要负责塔架的检测,而负球体核则用于平衡其他算子的贡献并抑制植被。
5.2.2. RQ2:SCENE-Net的性能
在TS40K数据集上的实验显示,SCENE-Net在精确度上比结构相似但参数未受约束的基线CNN高出38%,交并比(IoU)高出5%。尽管召回率较低,但这部分归因于SCENE-Net对带有噪声的标注数据(数据集中约50%的“塔架”标签实际上是地面或道路)表现出极强的鲁棒性,它更倾向于检测具有正确几何结构的塔身,而非盲目拟合噪声标签。与PointNet、PointNet++、KPConv、RandLA-Net以及PointTransformer系列等先进模型相比,SCENE-Net在塔架IoU上表现具有竞争力,但其参数量仅为1.1x10-5百万,参数效率(IoU/log10(参数量))远超其他模型,高出超过一个数量级。在SemanticKITTI基准测试中,SCENE-Net在杆状物检测上也取得了57.5%的IoU,证明了其良好的泛化能力。此外,SCENE-Net对输入点云的噪声、随机丢失以及遮挡都表现出较强的稳健性。
5.2.3. RQ3:GENEOs作为三维点云的归纳偏置
ablation研究表明,将圆柱体、箭头和负球体三种GENEO结合使用的模型(标准SCENE-Net)性能最佳,单独使用任何一种算子或过度增加算子实例数量都会导致性能下降。这验证了通过简单几何形状的凸组合可以构建出复杂的、高性能的语义观察者。另一个重要特性是,由于GENEO是基于连续函数定义的,SCENE-Net的行为与体素化分辨率和大小的选择相对独立,模型在未经重新训练的情况下,也能在不同分辨率的网格上产生一致的结果,这体现了其作为连续算子的优势。
本研究得出结论,SCENE-Net成功地将几何先验知识通过GENEO框架嵌入到深度学习模型中,创造了一个高度可解释、资源效率极高且性能稳健的三维点云分割白箱模型。其意义在于,它有力地证明了在特定任务上,精心设计的归纳偏置可以媲美甚至超越庞大黑箱模型的部分性能,同时提供了模型决策的机制性理解。这项工作为在资源受限环境下实现可信赖的三维场景理解迈出了重要一步,也为将领域知识融入机器学习模型提供了新的思路。未来,通过定义更多针对不同几何结构的GENEO库,SCENE-Net的框架有望扩展到多类别语义分割任务中,进一步推动可解释人工智能在三维视觉领域的发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号