《Optics & Laser Technology》:LFSamba: High-efficiency light field integral imaging 3D salient object detection method based on Mamba
编辑推荐:
3D光场积分成像显著性检测方法及轻量化框架设计|Mamba架构|空间连续性保持|参数优化|高效扫描机制
刘汉林|李强|童新阳|韩书雅|朱俊晨|王继奇|韩晨静
西安电子科技大学电子工程学院,中国西安710071
摘要
为了提高光场三维(3D)显著物体检测的准确性和效率,本文提出了一种基于Mamba的轻量级检测框架LFSamba。该方法利用Mamba的线性复杂度全局建模能力实现高精度检测,同时减少参数数量和计算成本。LFSamba通过引入基于显著性的选择性扫描机制来提升计算效率和检测精度。该机制有效保持了空间连续性并抑制了冗余的非显著信息。实验结果表明,LFSamba在多个3D场景中表现出色。与CNN和Transformer方法相比,该方法提高了60%以上的准确率,并减少了50%的参数数量。它为医学图像分析和3D可视化提供了一个高效且稳健的解决方案。
引言
积分成像[1]、[2]、[3]是一种光场裸眼三维(3D)成像方法[4]、[5]、[6],能够实现完整的视差和全彩色效果。该方法通过透镜阵列[7]、[8]以二维(2D)方式捕获四维光场数据,生成称为元素图像阵列(EIAs)的图像。同时,透镜阵列能够将EIA重建为空间中的3D物体,其中包含深度信息和纹理特征。然而,3D图像中存储的数据量极大,这对有效信息提取和精确细节重建是一个重大挑战。此外,在受限环境下确保优质用户体验对实时数据传输提出了严格要求。因此,从EIA中快速有效地提取关键信息是3D图像处理和重建中的关键问题。显著物体检测被视为提取关键信息的一种高效方法[9]、[10]。通过识别图像中的显著区域,可以快速区分视觉上不相关的区域。然而,当前的3D显著性检测方法仍然存在模型参数过多、计算效率低下和准确性不足等问题。
传统的显著性检测方法[11]、[12]是为2D图像设计的,输出的是平面显著性图。在处理3D图像时,这些方法忽略了其中包含的角度和空间信息,导致生成的显著性图无法用于重建显著的3D物体。当前的3D显著性检测方法通常使用所有聚焦图像[13]和焦堆图像[14]、[15]中的深度信息作为额外的显著线索。这些方法利用多视图一致性、视差信息和空间角度耦合特性[16]、[17]来增强显著物体定位的完整性和鲁棒性。它们已经开发了相对系统的基准评估和建模框架[18],并探索了无监督和弱监督参数[19]、[20]、[21]以减轻数据依赖性。然而,这些方法仅区分前景和背景,生成的2D显著性图缺乏深度和角度信息。同时,这些方法主要使用子孔径图像作为输入。由于这些图像通常覆盖整个场景且基线长度较短,因此可以在全局可见信息的支持下稳定建立跨视图一致性模型和视差估计。然而,EIA中的每个EI只包含局部视图,不同区域之间的细节共享有限。这显著削弱了EI之间的对应关系,破坏了多个视图之间显著区域边界的连续性。因此,3D显著物体的完整重建受到影响。简而言之,上述方法无法实现3D显著物体的重建。EIA的多视图特性完全保留了3D空间中的角度和深度信息。因此,EIA的显著性检测可以实现光场中空间和角度信息的全面重建。一些方法利用EIA的多视图连续性特征,使用VSOD[22]和CoSOD[23]方法从不同视角检测EIA中的显著物体。这两种方法受到模型感知范围的限制,仍然存在准确性低和边缘模糊的问题。我们之前的工作[24]利用了EIA和Transformer结构之间的结构相似性,将Transformer集成到EIA显著性检测中以增强模型的全局信息提取能力。然而,自注意力机制带来了额外的计算成本,特别是在处理具有复杂背景和模糊边缘的高分辨率EIA时效率较低。
最近,一种新兴的状态空间模型Mamba在平衡全局感受野和计算效率方面展现出了巨大潜力。Mamba利用选择性扫描算法对全局依赖性进行建模,同时保持线性计算复杂度。此外,其独特的硬件感知算法有助于在GPU上有效训练Mamba。因此,视觉Mamba骨干[25]、[26]网络得到了快速发展。同时,一些方法将Mamba架构引入显著性检测领域,设计了适用于2D图像的上下文特征融合方法[27]和新的选择性扫描方法[28]。然而,现有方法仍然存在忽略场景空间关系和角度特征的问题。此外,生成的显著性结果仍然是2D图像。因此,鉴于Mamba在2D领域的成功应用及其在3D领域的缺乏研究,我们将探索其在3D显著性检测任务中的高效全局建模潜力。
在传统的视觉Mamba中,首先将2D特征图分割成块,然后转换为了一维(1D)序列,作为输入到选择性扫描模块。由于它是为连续的1D因果序列预测设计的,当前块的预测结果高度依赖于相邻块。因此,在1D图像序列中存在连续的显著块。这些块使选择性扫描模块能够精确识别整个显著物体并改善特征表示。我们发现,在EIA显著性检测中实现Mamba架构时存在一个关键挑战:空间连续性的中断。在静态空间情况下,EIA在相同的水平或垂直视角下包含大量非显著信息。图1(a)、(b)、(c)和(d)中展示的扫描模式适用于不同的视觉任务,包括物体识别[29]和图像分割[30]。当直接用于光场显著性检测时,无法充分保持显著物体的空间连续性。这将导致通过选择性扫描模块获取高质量光场特征时遇到挑战。
为了确保将Mamba应用于显著性检测任务不会影响原始场景的空间连续性,我们提出了一种基于Mamba的高效光场积分成像3D显著物体检测方法(LFSamba)。该方法利用视觉状态空间模型对四维光场数据进行降采样,从而提高EIA的编码效率,并在通过显著性引导的扫描将EIA转换为1D序列的过程中保持原始场景中的空间连续性,如图1(e)所示。与现有扫描策略相比,该方法有效去除了EIA中非显著信息的影响,无论是水平还是垂直视角,从而实现高效的光场数据传输和高精度的3D场景重建。本文的主要贡献包括:
1) 本文首次将状态空间模型引入3D显著性检测领域,并提出了一种基于Mamba架构的新型检测框架,大幅减少了现有3D方法中的参数数量。
2) 设计了基于显著性引导的Mamba模块,使用显著性引导的扫描算法保持原始场景中光场信息的空间连续性,提高了3D环境中显著物体(尤其是微小物体)的检测精度。
3) 实验表明,LFSamba在检测不同场景中的显著目标时,以最少的参数数量实现了最先进的结果,证明了其有效性和Mamba在3D显示应用中的潜力。
据我们所知,这是首个用于3D显著性检测的此类方法。它将Mamba架构应用于该领域,并基于显著性引导设计了一种独特的光场扫描路径。这对于提高3D物体检测的效率、增强显著物体的检测精度以及打破传统检测方法的限制具有重要意义。
方法原理
所提出的LFSamba的整体流程如图2所示。在输入端,EIA被分割成EI序列,适合视觉状态空间块的编码框架。EI序列被输入到一个由四层视觉状态空间块组成的编码器中,该编码器通过逐步提取多尺度空间特征并促进跨尺度融合来获得初始预测的显著EIA,为下一个解码过程提供显著性指导。
实验与结果
根据所使用的显示参数,本实验将Lytro Illum数据集[37]中的640个EIAs调整为3840 × 2160的分辨率。为了提高模型的鲁棒性,采用了常见的数据增强方法(包括翻转、裁剪和旋转)来训练LFSamba的光场数据集。我们使用三个评估指标来评估模型性能:结构度量(Sm)[38]、最大F度量(Fm)[39]和最大E度量(Em)[40]。
计算
结论
本文致力于提高3D物体显著性检测的效率和准确性。考虑到Transformer架构的高计算复杂性和CNN架构的低准确性,我们将Mamba引入3D显著性检测领域,并提出了一种基于Mamba的高效3D物体显著性检测方法。该方法通过显著性引导的扫描克服了传统Mamba扫描导致的空间连续性中断问题。
CRediT作者贡献声明
刘汉林:撰写——原始草案、验证、软件、方法论、形式分析。李强:撰写——审阅与编辑、监督、项目管理、方法论、资金获取、概念化。童新阳:软件、形式分析。韩书雅:可视化、方法论。朱俊晨:可视化、形式分析。王继奇:撰写——原始草案。韩晨静:可视化。
利益冲突声明
作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。
致谢
图6中使用的模型是对Lung、Heart、Teeth、Sternum和Forearm模型进行修改后的3Ds Max版本,根据Sketchfab和cgmodel标准许可协议授权使用。