LumenGSLAM：一种基于物理的在线渲染技术，结合高斯斑点渲染（Gaussian Splatting）算法，以实现稳定可靠的内窥镜重建与跟踪功能

《International Journal of Computer Assisted Radiology and Surgery》：LumenGSLAM: online physically based rendering with Gaussian Splatting for robust endoscopic reconstruction and tracking

【字体：大中小】 时间：2026年05月15日 来源：International Journal of Computer Assisted Radiology and Surgery 2.3

编辑推荐：

　　摘要目的：从内窥镜视频中进行真实的在线3D重建对于术中检查和导航至关重要。然而，现有的方法往往忽略真实的灯光建模，依赖于离线优化，或依赖脆弱的光度测量跟踪，从而限制了物理上可能的渲染和稳定的跟踪。本研究通过一个在线框架解决了这些限制，实现了稳定的跟踪和逼真的内窥镜渲染。方法

　　摘要
目的：从内窥镜视频中进行真实的在线3D重建对于术中检查和导航至关重要。然而，现有的方法往往忽略真实的灯光建模，依赖于离线优化，或依赖脆弱的光度测量跟踪，从而限制了物理上可能的渲染和稳定的跟踪。本研究通过一个在线框架解决了这些限制，实现了稳定的跟踪和逼真的内窥镜渲染。

方法：我们提出了LumenGSLAM，一个在线RGB-D高斯喷射框架，用于高度纹理化的内窥镜场景的密集重建。该方法利用密集的深度输入来实现稳定的几何估计和基于物理的照明（PBR）的逼真外观建模。引入了表面对齐的高斯初始化和每个参数的梯度缩放，以提高解剖学保真度和几何一致性。通过使用SuperPoint/LightGlue和Perspective-n-Point（PnP）的高斯耦合特征基跟踪模块，实现了稳健的相机姿态估计，确保在快速运动和挑战性照明条件下的可靠定位。

结果：在C3VD和SCARED数据集上的评估中，LumenGSLAM取得了卓越的在线重建和跟踪性能。它在C3VD上达到了PSNR = 30.6、SSIM = 0.89和LPIPS = 0.23，优于所有在线基线，并接近最先进的离线PR-ENDO质量。在跟踪方面，它提供了最低的绝对轨迹误差（ATE = 0.93毫米）和旋转误差（ARE = 0.98°），即使在大幅帧间运动下也表现出稳健性。

结论：LumenGSLAM为在线RGB-D内窥镜重建建立了新的基准，通过显式的光照建模和几何感知的高斯优化实现了光度一致性和解剖学精确的映射。其稳健性使其成为术中导航和未来向动态组织建模扩展的有希望的候选者。项目页面：https://github.com/FrancescoLeni/LumenGSLAM。

引言
内窥镜在微创手术（MIS）中起着核心作用，使临床医生能够通过自然或手术创建的通道检查内部器官。虽然这种方法减少了患者的创伤并加速了恢复，但受限的手术空间对成像设备有严格的限制，这些设备通常是单眼的，并依赖于鱼眼光学系统来最大化视野。然而，这种设置引入了强烈的光学扭曲，并消除了真实的深度感知，给手术过程中的导航和空间理解带来了重大挑战。拥有一个能够在手术进行的同时产生高质量解剖结构重建的系统将非常有益，因为它将为操作者提供探索腔体的全局概览，增强感知并实现虚拟导航。因此，大量的研究工作正朝着这个方向进行[1]。

为了实现一致的环境重建和相机跟踪，同时定位与映射（SLAM）在外科环境中表现出了出色的性能。然而，由于这些系统的主要目标是精确的定位，环境通常由一组稀疏的点来表示，仅足以支持跟踪。因此，需要额外的后处理步骤来获得连贯的3D重建[2, 3]。当主要目标是高质量、纹理化的环境重建时，最近在神经渲染[4]方面的进步成为了一个有前途的解决方案。特别是，神经辐射场（NeRF）[5]通过神经网络学习隐式场景表示，实现了密集的体积重建。这些方法提供了高质量的重建，但它们受到长时间训练和慢速推理的限制，限制了它们在真实临床环境中的可行性[6, 7]。最近，3D高斯喷射（3DGS）[8]作为一种有前途的场景表示方法出现，能够在保持竞争性重建和纹理质量的同时实现快速部署。许多最新的内窥镜重建和跟踪方法假设可以访问密集的深度信息，这些信息通常来自专门的感测设置或辅助深度估计模块，以支持几何估计。Gaussian Pancakes [9]引入了一个表面损失项来规范化喷射，而PR-ENDO [10]通过集成到基于物理的渲染（PBR）公式中的MLP显式地模拟了照明。尽管具有高视觉保真度，但这些流程仍然是离线的，因为它们需要从外部SLAM框架获得初始重建和相机轨迹。为了向在线操作迈进，EndoGSLAM [11]率先使用了高斯喷射作为结肠镜检查中SLAM的几何表示。该模型产生了良好的重建，但由于依赖于简化的各向同性高斯，纹理质量较差，且跟踪受到纯光度优化的限制，在快速运动或挑战性照明条件下可能影响其稳健性。

基于这些进步，我们提出了LumenGSLAM，一个在线密集RGB-D重建框架，它以高斯喷射作为其核心场景表示，用于高度纹理化的3D建模和内窥镜场景中的逼真渲染。该方法利用密集的深度输入来支持稳定的几何估计。与离线重建流程[8,9,10]不同，LumenGSLAM完全在线运行，在每帧中逐步扩展和细化表面对齐的高斯图，并同时估计相机姿态。为了提高视觉保真度和物理一致性，通过每个高斯的PBR建模显式解耦了光线和组织外观，避免了基于MLP的照明模块的开销[10]。为了确保在快速运动和复杂照明下的稳定在线重建，我们引入了一种高斯耦合的关键点跟踪策略，与仅基于光度的优化相比，增强了姿态的稳健性。

LumenGSLAM的主要贡献可以总结如下：
- 一个用于高度纹理化密集3D重建和逼真渲染的在线RGB-D框架，通过每个高斯的PBR建模实现。
- 表面对齐的高斯初始化和每个参数的梯度缩放，以提高在线优化过程中的解剖学保真度和几何一致性。
- 一个高斯耦合的关键点跟踪模块，旨在提供稳健和准确的姿态估计，作为在宽运动和挑战性照明条件下实现稳定重建的启用组件。

图1
LumenGSLAM流程概述：给定流式RGB-D输入帧，模型通过3D-2D点注册估计当前帧t的姿态。然后在未见区域扩展高斯分布，最后在一组选定的关键帧上优化全局图。

方法概述
LumenGSLAM是一个在线RGB-D视觉SLAM流程，采用高斯喷射[8]作为其核心场景表示，实现了100+ fps的渲染速度（有关运行时性能的更多细节在补充材料的App. B中报告）。如图1所示，系统分为三个主要模块：输入RGB-D流，跟踪模块首先使用高斯耦合的关键点方法估计当前的相机姿态；然后扩展模块将同一当前帧的信息整合起来，通过添加新的表面对齐的高斯逐步扩大全局图。最后，映射模块在一组选定的关键帧上执行全局图参数的在线优化。为了进一步提高渲染质量，LumenGSLAM结合了基于每个高斯的PBR和每个参数的梯度缩放进行显式光照建模。

表面对齐的高斯初始化
在LumenGSLAM中，场景被表示为一组可学习的高斯[8]，每个高斯由其中心$\mu$、协方差（通过旋转四元数和缩放向量表示）、不透明度$\alpha$以及通过球谐（SH）系数编码的基色（反照率）参数化。受到[10]的启发，我们进一步为每个高斯添加了反射率$\textit{F}_0$和粗糙度r，分别实验性地初始化为0.035和0.3，从而支持通过PBR进行光学属性的每个高斯建模，并实现逼真的光线行为。

与之前的工作不同，后者使用表面法线来规范化损失[9, 10]，发现将表面法线作为几何先验对PBR收敛更为有效。对于每一帧，这些法线都是从输入深度图的空间梯度中在线计算的。然后，在初始化期间，每个新的高斯的局部z轴明确地与相应的表面法线对齐。每当有新的帧可用时，就会引入新的表面对齐的高斯，并从可用的深度图反向投影。对于第一帧，所有像素都被考虑用于初始化地图。对于后续帧，只添加之前未见区域的像素，具体来说是那些alpha混合不透明度低于0.9或与当前估计的深度更接近的像素，表明是新观察到的结构。在这种情况下，系统仅持续优化之前的视图以提升重建质量，并尝试根据最后一个有效视图来估计下一帧的姿态。图3。这张图片的替代文本可能是通过AI生成的。完整尺寸图片。

在线重建方法在C3VD的sigmoid_t2_a序列上进行了测试。在估计出新帧的姿态并添加新点后，仅通过梯度下降优化全局地图的高斯和光照参数，使用一个基于距离当前视图的空间（$\textit{s}_d$）和时间（$\textit{s}_t$）采样的关键帧窗口，并最小化重建损失。受到EndoGSLAM [11]的启发，该窗口被设置为25个视图，输入流中每8个帧就选择一个作为关键帧，保留其真实图像、深度和估计的姿态。然后为所有N个关键帧计算一个概率函数，偏好那些在空间或时间上更接近当前视图姿态的帧：
$$\begin{aligned} p_i = \dfrac{\log _2\Big ( 1 + \dfrac{s_d}{d_i + s_d/5} \Big ) + \log _2\Big ( 1 + \dfrac{s_t}{t_i + s_t/5} \Big )}{\sum _{j=1}^{N} \Big [ \log _2\Big ( 1 + \dfrac{s_d}{d_j + s_d/5} \Big ) + \log _2\Big ( 1 + \dfrac{s_t}{t_j + s_t/5} \Big ) \Big ]} \, (1 - p_c) \end{aligned}$$
其中 ${p_c}$ 被设置为0.1，如[11]中所述，代表与当前视图相关的概率。这种方法优先考虑最近或附近的视图进行局部优化，同时仍然采样远距离的关键帧以保持全局一致性和最新的地图。

最终损失结合了光度、深度和组织一致性项，以提高图像的真实性，强化结构连贯性，并产生物理上合理的重建。光度项平衡了像素级精度和感知相似性，渲染图像与真实图像之间的L1差异贡献了80%，结构差异（D-SSIM）项贡献了剩余的20%。深度项使用鲁棒的Huber公式来惩罚渲染图像和真实深度图之间的差异。组织一致性项改编自[10]，通过最小化所有观察点上的反射率、粗糙度和反照率的偏差来鼓励光学参数的均匀性。

整体损失表示为这些组分的加权和：
$$\begin{aligned} \mathcal {L} = \lambda _\text {photo} \, \mathcal {L}_\text {photo} + \lambda _\text {depth} \, \mathcal {L}_\text {depth} + \lambda _\text {tissue} \, \mathcal {L}_\text {tissue}, \end{aligned}$$
其中 $\lambda _\text {photo}$、$\lambda _\text {depth}$ 和 $\lambda _\text {tissue}$ 来平衡每个项的贡献。根据经验，我们观察到将所有权重设置为1可以在这些目标之间提供合理的平衡；因此，所有系数都被固定为1，无需进一步调整。关于每个项的更多细节可以在补充材料（第A节）中找到。

为了进一步保持几何和解剖学的一致性，一个基于参数的调度器会减少已经多次优化过的点的更新幅度。根据每个高斯被优化的次数，独立地对每个点应用一个S型衰减方案。结果，频繁出现的高斯会收到逐渐减小的更新，防止过度拟合当前视图，并保持结构真实性。

实验和结果
评估是在C3VD [18] 和 SCARED [19] 数据集上进行的。对于C3VD，我们采用了EndoGSLAM [11] 预处理，输入分辨率为 $675 {\times } 540$。对于SCARED [19]，使用surfel meshing技术对稀疏的深度图进行密集化，帧的大小调整为 $640{\times } 512$，并在优化过程中主动修剪掉不在可用深度图中的点，因为缺失的真实深度可能导致发散。

为了进一步评估我们跟踪方法的鲁棒性，我们在C3VD的一个子采样版本上测试了在线模型，每隔一个帧保留一个帧，从而增加帧间运动并模拟真实的相机速度。

实验设置
为了评估我们的模型，我们遵循标准做法，在每个序列中每隔五帧保留一个帧进行测试。LumenGSLAM的性能与基于高斯重建的最先进离线和在线方法进行了比较。具体来说，Gaussian Pancakes [9]、PR-ENDO [10] 和 3DGS [8] 被用作离线基线，而EndoGSLAM [11]、OnlineEndoTrack [20]、GaussianSLAM [14] 和 MonoGS [13] 则作为在线基准。所有模型都在假设高质量深度输入可用的情况下进行评估。为了确保公平和受控的比较，向所有框架提供了真实深度图，从而将性能与深度估计错误分离。对于离线方法，我们的重建结果用作初始化。MonoGS在在线和离线设置中都进行了评估，而OnlineEndoTrack不执行跟踪，使用的是真实姿态。为了进一步基准测试跟踪性能，还报告了ORB-SLAM3 [21] 的结果。

重建和纹理质量使用峰值信噪比（PSNR）、结构相似性指数（SSIM）、学习感知图像块相似性（LPIPS）以及渲染深度图与真实深度图之间的L1距离（Depth-L1）来进行评估。跟踪性能通过欧几里得绝对轨迹误差（ATE）和绝对旋转误差（ARE）来衡量，对于基于高斯的方法，计算时不进行对齐，因为假设输入深度图的尺度是正确的；而对于ORB-SLAM3，则仅进行尺度校正。

LumenGSLAM在NVIDIA Tesla V100 GPU上进行了训练，使用了25次映射循环迭代、Adam优化器以及50的修剪间隔，遵循EndoGSLAM的设置。高斯参数的学习率遵循了原始的3DGS公式，而PBR模型的学习率则按照PR-ENDO设置。调度器遵循一个基于实验设置的S型衰减方案。对于位置和不透明度，斜率为 $\alpha =0.02$，在 $x=200$ 处有一个转折点；对于协方差、尺度和基色，斜率为 $\alpha =0.015$，在 $x=500$ 处有一个偏移，这使得几何冻结更快，颜色优化更平滑。光参数在整个场景中全局优化，没有专门的调度器。我们的模型使用了提出的基于关键点的跟踪（PnP）和EndoGSLAM [11] 的相同光度方法（Ph）进行测试。

表1总结了LumenGSLAM与选定的离线和在线基线的性能。在渲染方面，LumenGSLAM始终优于所有测试的在线模型，包括专为内窥镜设计的EndoGSLAM [11]（在C3VD上PSNR提升+5.4、SSIM提升+0.04、LPIPS降低-0.07；在SCARED上PSNR提升+6.9、LPIPS降低-0.13、SSIM提升+0.15）。关于Depth-L1，大多数模型在C3VD上表现出良好的鲁棒性，只有提出的模型和GaussianSLAM在SCARED上保持稳定。在C3VD [18] 上，LumenGSLAM实现了最高的整体LPIPS（0.23），这要归功于其精确的在线PBR建模。

在C3VD上，LumenGSLAM（PnP）报告的Depth-L1为0.51毫米，相比之下EndoGSLAM为0.24毫米，GaussianSLAM为0.30毫米。这种行为与我们的优化设计一致。引入的每个高斯的PBR建模提供了额外的自由度，通过调整光照和反射率参数来实现光度一致性，从而减少了对激进几何拟合的需求。同时，每个参数的梯度调度器逐渐限制了频繁出现的高斯的更新，稳定了地图并防止了特定视图的过度拟合。因此，该框架优先考虑结构稳定性和感知真实性，而不是亚毫米级的深度最小化。重要的是，这种效果并不表明存在系统的几何限制。在更具挑战性的SCARED数据集上，LumenGSLAM（PnP）实现了1.19毫米的Depth-L1，这是在线方法中第二好的结果，显著低于EndoGSLAM（7.04毫米）、MonoGS（5.81毫米）和OnlineEndoTrack（6.62毫米）。C3VD上略微更高的Depth-L1因此是特定于数据集的，可能与基于PBR的优化与该数据集的照明特性相互作用有关，而不是方法本身的根本弱点。

对于其他指标，LumenGSLAM仍然具有竞争力（在C3VD上PSNR为30.63，在SCARED上LPIPS为0.14）。最佳渲染结果是由PR-ENDO [10]获得的，它实现了类似的光照建模，但是在离线模式下运行的，利用了整个视频流。在图4中，C3VD的示例说明了只有LumenGSLAM和PR-ENDO能够忠实渲染光照较弱的远距离区域，它们的显式光照建模准确捕捉了阴影和镜面反射。同样，在SCARED中，只有这些模型正确捕捉到了黑暗的远距离区域和细小的血管结构。图3显示了全序列重建。由于表面对齐的初始化和每个参数的缩放，LumenGSLAM产生了干净、无伪影的结果，组织的外观均匀，这是因为光照和基色的解耦。更多定性结果请参见补充材料中的图B2和补充视频。

表2报告了C3VD和SCARED上的跟踪性能。完整尺寸表格。

图4显示了C3VD（顶部）和SCARED（底部）上的渲染结果。

表1总结了LumenGSLAM与选定的离线和在线基线的性能。在渲染方面，LumenGSLAM始终优于所有测试的在线模型，包括为内窥镜设计的EndoGSLAM [11]（在C3VD上PSNR提升+5.4、SSIM提升+0.04、LPIPS降低-0.07；在SCARED上PSNR提升+6.9、LPIPS降低-0.13、SSIM提升+0.15）。在Depth-L1方面，大多数模型在C3VD上表现出良好的鲁棒性，只有提出的模型和GaussianSLAM在SCARED上保持稳定。在C3VD [18] 上，LumenGSLAM实现了最佳的总体LPIPS（0.23），这得益于其精确的在线PBR建模。

在C3VD上，LumenGSLAM（PnP）报告的Depth-L1为0.51毫米，而EndoGSLAM为0.24毫米，GaussianSLAM为0.30毫米。这种行为与我们的优化设计一致。引入的每个高斯的PBR建模提供了额外的自由度，允许通过调整光照和反射率参数来实现光度一致性，从而减少了对激进几何拟合的需求。同时，每个参数的梯度调度器逐渐限制了频繁出现的高斯的更新，稳定了地图并防止了特定视图的过度拟合。因此，该框架优先考虑结构稳定性和感知真实性，而不是亚毫米级的深度最小化。重要的是，这种效果并不表明存在系统的几何限制。在更具挑战性的SCARED数据集上，LumenGSLAM（PnP）实现了1.19毫米的Depth-L1，在在线方法中排名第二，远低于EndoGSLAM（7.04毫米）、MonoGS（5.81毫米）和OnlineEndoTrack（6.62毫米）。C3VD上略微更高的Depth-L1是特定于数据集的，可能与基于PBR的优化与该数据集的照明特性相互作用有关，而不是方法本身的根本弱点。

对于其他指标，LumenGSLAM仍然具有竞争力（在C3VD上PSNR为30.63，在SCARED上LPIPS为0.14）。最佳渲染结果是由PR-ENDO [10]获得的，它实现了类似的光照建模，但是在离线模式下运行的，利用了整个视频流。在图4中，C3VD的示例说明了只有LumenGSLAM和PR-ENDO能够忠实渲染光照较弱的远距离区域，它们的显式光照建模准确地捕捉了阴影和镜面反射。同样，在SCARED中，只有这些模型正确捕捉到了黑暗的远距离区域和精细的血管结构。图3显示了全序列重建。由于表面对齐的初始化和每个参数的缩放，LumenGSLAM产生了干净、无伪影的结果，由于光照和基色的解耦，组织外观均匀。更多定性结果请参见补充材料中的图B2和补充视频。

表2报告了C3VD（通过从原始序列中每隔一个帧保留一个帧获得的一个C3VD子集）和SCARED上的跟踪性能。完整尺寸表格。

图5显示了3个数据集上的定性轨迹。

表2报告了定量跟踪性能，图5显示了定性轨迹，而更多轨迹可以在补充材料的图B1和补充视频中找到。虽然ORB-SLAM3 [21] 在所有数据集上保持稳定，但在C3VD的缓慢和简单的相机运动下，光度方法被证明是具有竞争力的，LumenGSLAM(Ph)和EndoGSLAM都达到了0.89mm的ATE。但是，在C3VD的大幅帧间运动（每5帧）和SCARED的复杂轨迹下，它们往往会发散。相反，使用提出的高斯耦合跟踪进行测试时，LumenGSLAM展示了出色的鲁棒性，在C3VD上将ATE和ARE分别降低了8.81毫米和17.4度，在SCARED上降低了7.02毫米和14.23度。值得注意的是，尽管GaussianSLAM [14]纯粹是基于光度的，但它仍然对这些挑战具有鲁棒性，这可能是由于它花费了更多的时间来映射当前视图。这有助于光度的收敛，但如图3和图4所示，它影响了最终重建的质量。

表3的左块（映射）报告了C3VD上的重建消融：“n-init”（使用表面法线的Gaussian初始化）、“n-loss”（基于法线的损失正则化）、“pbr”（显式光照建模）和“sched”（每个参数的调度器）。完整尺寸表格。

表3总结了关键模型组件的影响。C3VD上的映射结果显示，调度器主要增强了结构真实性，体现在更高的SSIM上，而PBR建模和表面对齐的初始化提高了视觉质量，如PSNR的增加和LPIPS的减少所示。有趣的是，使用从深度梯度派生的法线作为损失的正则化在与PBR结合时降低了性能，这可能是由于它们的近似性质，破坏了从渲染中获得的法线的平滑性。因此，没有实施法线正则化。分析C3VD（每5帧）上的跟踪性能清楚地表明，在大幅帧间运动下，光度姿态细化是不稳定的。即使使用提出的基于关键点的策略进行初始化，性能也会显著下降。

我们进一步扩展了对跟踪模块的消融分析，以评估束调整（BA）对所有考虑的数据集的影响，包括C3VD及其每个5帧的子采样版本和SCARED，结果在表4中报告。在所有数据集中，将BA纳入映射以细化关键帧姿态只导致了跟踪精度的小幅变化。这种行为可以归因于LumenGSLAM中跟踪和映射之间的紧密耦合。每帧的姿态估计依赖于与之前渲染的视图的关键点匹配，而后者本身是从最多25个关键帧的滑动窗口中连续优化的Gaussian地图生成的。这种多视图局部优化强制在重叠视图之间保持几何一致性，从而产生已经局部一致的渲染参考。因此，用于PnP的3D–2D对应关系基于精细的场景表示，本质上限制了随时间的漂移积累。在这些条件下，额外的姿态校正所带来的增量效益相对于其计算成本来说是有限的。因此，最终模型中没有包含束调整。

表4报告了束调整（BA）对跟踪性能的影响，以ATE和ARE的形式衡量。ATE值以毫米为单位，ARE以度为单位。

表5报告了所提出框架对输入深度图的质量和尺度的依赖性，使用C3VD数据集在受控的深度尺度变化和扰动下评估了光度（Ph）和提出的基于关键点的（PnP）跟踪策略。特别是，我们分析了系统在固定但非度量深度尺度下的行为，该尺度被任意缩放以模拟单目视觉系统的典型尺度模糊性，以及在两种额外的扰动场景下进行模拟，以模拟不完美的深度估计。原始的C3VD帧的最大可观测深度为100毫米。为了评估对尺度不一致性的鲁棒性，我们将最大可观测深度重新缩放到10（同时保持相对深度关系），从而模拟了在单目环境中常见的具有连贯结构但全局尺度不正确的情况。在这个实验中，输入的深度图和相应的真实姿态都通过相同的因子进行了统一缩放。因此，姿态估计完全在重新缩放的坐标系统中进行，而平均绝对误差（ATE）是针对在同一空间中表示的真实姿态计算得出的。表5评估了C3VD中对输入深度图质量的依赖性。深度-L1和ATE值以毫米为单位报告，而平均相对误差（ARE）值则以度为单位。在“低”场景中，高斯噪声和随机偏差的应用标准差分别为输入尺度的0.5%和0.1%，高斯模糊的半径设置为2像素。在“高”场景中，高斯噪声和随机偏差的标准差分别为输入尺度的5.0%和1.0%，高斯模糊的半径设置为5像素。尽管该系统在纹理方面表现出鲁棒性，但这些结果清楚地表明，所提出的基于关键点的跟踪策略更能处理小干扰，在“低” ??下保持了0.92毫米的ATE。在“高”设置下，两种策略的表现出现了分歧；然而，由于误差缓解机制能够恢复失败的姿态估计，基于关键点的策略保持了显著更高的鲁棒性，其ATE为12.9毫米，而光度跟踪的ATE为150.9毫米。有趣的是，光度跟踪也似乎对尺度敏感，当尺度设置为10时性能会下降。这进一步强调了光度跟踪的敏感性，并表明在适应不同尺度场景时需要仔细调整损失函数和学习率。

**限制**
LumenGSLAM能够实现鲁棒且高度纹理化的腔体重建。然而，其性能仍然依赖于局部特征匹配的可靠性。特别是在组织极度均匀或图像退化（例如，输入深度图中的模糊或噪声）的情况下，SuperPoint可能会失败，导致姿态估计错误，如果这些错误没有通过误差缓解方案得到完全纠正，将会降低最终重建的质量。这表明，针对特定领域的适应性调整或特征提取器的微调可能会进一步提高鲁棒性和泛化能力。与许多最新的先进方法一样，LumenGSLAM采用了一种非端到端的架构，并依赖于密集的深度信息，这些信息通常通过专用传感器或额外的深度估计模块获得。虽然这种设计有助于稳定的几何估计和高质量渲染，但在标准临床内窥镜检查中可能并不总是满足这些条件，因为深度通常不能直接获得，必须通过单目观测来推断。尽管LumenGSLAM是完全在线运行的，但其优化时间大约是EndoGSLAM [11]的两倍，主要是由于基于物理的渲染（PBR）引入了额外的计算开销。因此，进一步提升性能可能需要更紧密的系统集成，例如将PBR直接集成到基于CUDA的光栅化管线中。

**结论**
LumenGSLAM提出了一个新的基于RGB-D高斯的在线视觉SLAM框架，它将PBR整合到统一的、具备几何感知能力的表示中，用于内窥镜重建和跟踪。通过显式的光模型和基于关键点的定位，它实现了解剖学上一致且光度精确的映射，在SCARED测试中超越了所有在线基线，PSNR提高了6.9%，LPIPS降低了0.13%，SSIM提高了0.15%。尽管渲染速度超过100帧每秒，但优化阶段，特别是每个高斯的PBR计算，引入了额外的开销，影响了实时性能。因此，未来的工作将集中在运行时优化、将深度估计模块集成到管线中，以及在线组织变形建模上。

热点排行