编辑推荐:
全景语义分割(PASS)面临几何畸变、空间不连续及计算效率等难题。研究人员提出 Mamba4PASS 框架,引入 IFF 和 SGADPE 模块。实验表明该方法有效,达当前最优水平,为全景语义分割提供新方案。
在计算机视觉的广阔领域中,全景语义分割(PAnoramic Semantic Segmentation,PASS)是一项既重要又充满挑战的任务。随着 360° 摄像头在现实应用中的广泛普及,全景图像能够提供全面的场景视角,在自动驾驶的整体感知、虚拟 / 增强现实以及机器人系统的路径规划等方面发挥着关键作用。然而,全景图像最常见的表示形式 —— 等距柱状投影(equirectangular projection,ERP)却带来了诸多麻烦。由于其像素分布不均匀,ERP 图像常常遭受几何畸变和物体变形的困扰,这无疑给 PASS 任务增加了额外的难度。
同时,现有的研究方法也存在着各种问题。一些方法仅专注于处理图像的畸变问题,却忽视了从全景图像中提取丰富的上下文信息,并且没有考虑到空间连续性。而基于 Transformer 结构的方法虽然能够有效捕捉全局上下文的长距离依赖关系,并利用可变形卷积来感知图像中的几何畸变,但它们的计算成本会随着输入图像分辨率的提高而呈二次增长,严重降低了模型的效率。因此,如何在全局感知和计算效率之间、视场(Field-of-View,FoV)连续性和畸变校正之间找到平衡,成为了设计高效 PASS 模型的重大挑战。
为了解决这些棘手的问题,来自国内的研究人员开展了一项旨在突破全景语义分割困境的研究。他们提出了一种全新的框架 ——Mamba4PASS(Vision Mamba for PAnoramic Semantic Segmentation)。该研究成果发表在《Displays》上,为全景语义分割领域带来了新的希望。
研究人员在开展这项研究时,运用了多个关键技术方法。一方面,引入了增量特征融合(Incremental Feature Fusion,IFF)模块。这个模块能够逐步将深层的语义特征与浅层的空间细节特征进行整合,有效缓解了空间状态模型(State Space Model,SSM)可能导致的局部细节丢失问题。另一方面,提出了球面几何感知可变形补丁嵌入(Spherical Geometry-Aware Deformable Patch Embedding,SGADPE)模块。该模块利用球面几何属性,采用一种新颖的可变形卷积策略来适应 ERP 图像,不仅有效解决了空间不连续的问题,还稳定了几何畸变。此外,研究人员将 Mamba 作为骨干网络,用于从全景图像中提取全局特征,大大提高了计算效率。
研究结果
- 模型性能表现优异:在斯坦福 2D3D 和 Matterport3D 全景室内数据集上进行了广泛的实验,结果表明 Mamba4PASS 模型的性能与当前最先进的方法相当,甚至在某些方面超越了它们。这充分证明了该模型在全景语义分割任务中的有效性和优越性。
- SGADPE 模块效果显著:通过计算基于球面畸变图像几何先验的扭曲像素位置偏差,并采用独特的可变形卷积策略,SGADPE 模块能够在早期图像序列化阶段让模型学习全景图像的畸变特征,同时保持空间连续性。而且,该模块无需重复学习变换卷积采样位置,降低了计算负担,增强了网络的稳定性。
- IFF 模块提升细节捕捉能力:在特征解码阶段,IFF 模块采用增量式的方式逐步优化特征表示。通过这种方式,它能够很好地保留空间特征细节,提升模型在复杂场景中捕捉物体边界和精细细节的能力。
- 模型的鲁棒性和连续性得到验证:研究人员还对模型在处理 3D 旋转和确保连续性方面的鲁棒性进行了研究。结果显示,Mamba4PASS 在这些方面表现出色,进一步证明了其在全景语义分割任务中的可靠性。
研究结论与讨论
Mamba4PASS 的提出,成功地探索了空间状态模型(SSM)在全景语义分割任务中的潜力,并取得了当前最优的性能。该模型为全景语义分割提供了一种全新的解决方案,有效解决了全景图像畸变和空间不连续的问题,同时在全局感知和计算效率之间实现了较好的平衡。
其意义不仅在于为相关领域的研究提供了新的思路和方法,推动了全景语义分割技术的发展,还为自动驾驶、虚拟现实等实际应用提供了更强大的技术支持。例如,在自动驾驶中,更精准的全景语义分割能够帮助车辆更好地感知周围环境,提高行驶安全性;在虚拟现实中,也能为用户带来更加逼真和流畅的体验。
然而,这项研究也并非十全十美。尽管 Mamba4PASS 在性能上有了显著提升,但在面对一些极端复杂的场景时,可能还存在一定的局限性。未来的研究可以在此基础上进一步优化模型,探索更多创新的方法,以应对更加复杂多变的实际应用需求,让全景语义分割技术能够更好地服务于各个领域。