Endo-E2E-GS:利用高斯散布(Gaussian Splatting)技术实现内窥镜场景的端到端3D重建

《Displays》:Endo-E2E-GS: End-to-end 3D reconstruction of endoscopic scenes using Gaussian Splatting

【字体: 时间:2026年01月15日 来源:Displays 3.4

编辑推荐:

  3D内窥镜重建端到端框架直接从单对立体图像生成高斯场无需预处理在ENDONERF和SCARED数据集上达到PSNR 38.87/33.05 SSIM 0.978/0.863性能最优。

  
王熊志|杨博宇|魏敏|陈宇|张静刚|聂云峰
西安电子科技大学航空航天科学与技术学院,中国西安710071

摘要

三维(3D)重建对于增强微创手术中的空间感知和几何理解至关重要。然而,当前的方法(如神经辐射场(NeRF)和3D高斯喷射(3DGS)通常依赖于离线预处理——例如基于COLMAP的点云或多帧融合——这限制了它们的适应性和临床应用。我们提出了Endo-E2E-GS,这是一个完全端到端的框架,可以直接从单一对立体内窥镜图像重建结构化的3D高斯场。该系统集成了:(1)基于DilatedResNet的立体深度估计器,用于在低纹理场景中进行稳健的几何推断;(2)高斯属性预测器,用于推断每个像素的旋转、缩放和不透明度;(3)可微分的喷射渲染器,用于2D视图监督。在ENDONERF和SCARED数据集上的评估表明,Endo-E2E-GS的性能极具竞争力,分别达到了38.874/33.052的PSNR值和0.978/0.863的SSIM分数,超越了最近的最先进方法。它不需要显式的场景初始化,并在两个代表性的内窥镜数据集上表现出一致的性能。代码可在以下链接获取:https://github.com/Intelligent-Imaging-Center/Endo-E2E-GS

引言

从内窥镜视频中进行3D重建是微创手术(MIS)中的核心技术,通过为外科医生提供增强的手术区域空间感知来提高手术导航和操作精度。除了术中指导外,这项技术还支持虚拟手术模拟、医学训练和机器人自动化等关键应用[1]、[2]、[3]。在机器人辅助手术中,精确的3D重建对于实现实时视觉反馈和精细控制尤为重要。然而,内窥镜场景存在独特且显著的挑战——如组织表面的稀疏纹理、狭窄的视野、频繁的器械遮挡和非刚性变形——这些限制了传统3D重建方法的有效性[4]、[5]、[6]。
为了解决这些挑战,提出了多种方法。传统方法包括基于几何的立体深度估计[7]、[8]、[9]、基于SLAM的映射[10]、[11]、[12]、稀疏扭曲场模型[13]、[14]和基于体素的体积表示[15]。虽然这些方法提供了可解释的几何信息,但它们难以适应非刚性解剖运动,并且在纹理匮乏的区域经常产生碎片化或视觉不连续的重建结果。神经渲染方面的进步,特别是神经辐射场(NeRF)[16]、[17],引入了一种范式转变,将场景编码为连续的隐式函数,显著提高了渲染质量和真实感。然而,NeRF的高计算需求和漫长的每场景训练时间,加上缺乏显式的几何表示,阻碍了其在时间敏感的手术环境中的实际应用[18]。
作为一种强大的替代方案,3DGS[19]应运而生,它结合了内存效率高的基本元素和可微分的栅格化流程。与体素网格相比,它避免了密集的体积存储需求;与NeRF相比,它显著提高了渲染速度和训练效率,同时保持了显式的几何控制。尽管有这些潜力,当前基于3DGS的方法在应用于内窥镜场景时仍面临多个障碍。首先,它们通常依赖于离线预处理步骤,例如使用COLMAP生成稀疏点云[20]、[21]、[22];在视角有限和遮挡频繁的内窥镜视频中,这个过程是不可靠的。其次,大多数现有方法依赖于每场景优化[23]、[24]、[25],这是一个耗时的过程,无法满足手术的实时要求。最后,许多前馈3DGS框架[26]、[27]、[28]是为一般对象级场景设计的,缺乏对微创手术中非刚性组织和贫瘠纹理的独特挑战的适应性。
为此,我们提出了Endo-E2E-GS,这是一个从立体内窥镜图像直接进行结构化3D重建的端到端框架,直接解决了上述限制。与现有的基于3DGS的方法不同,Endo-E2E-GS通过完全前馈架构直接从单一对立体图像重建3D高斯场,消除了对场景特定预处理或离线优化的任何依赖。该系统集成了一个立体深度估计器和一个高斯属性预测器,两者都基于DilatedResNet编码器构建。通过系统地扩大感受野,这种设计在纹理匮乏的手术场景中增强了几何和外观特征提取,实现了稳健、高保真的重建,并接近实时性能。我们的主要贡献总结如下:
  • 我们提出了Endo-E2E-GS,这是一个完全端到端和前馈的框架,可以直接从单一对立体内窥镜图像重建结构化的3D高斯场,无需任何场景特定的几何信息、点云初始化或离线预处理。
  • 我们通过将DilatedResNet集成到立体深度估计和高斯属性预测模块中,扩展了传统的基于ResNet的架构。这种设计扩大了有效感受野,并在纹理匮乏和解剖结构复杂的手术场景中增强了特征提取。
  • 我们的方法在ENDONERF和SCARED数据集上实现了最先进的渲染质量(PSNR:38.874,SSIM:0.978),同时支持适合手术场景的高效3D重建。

相关工作

隐式场3D重建

在过去几年中取得了显著进展,NeRF[16]已成为逼真新视图合成的基础技术。NeRF通过基于坐标的多层感知器(MLPs)表示场景,将空间位置和观察方向映射到密度和颜色。这种范式实现了连续和高保真的3D表示,但缺乏显式的表面几何信息,限制了其在机器人技术和临床应用中的实用性

初步介绍

深度估计是3D重建流程中的基本组成部分,旨在从2D图像观测中恢复场景几何信息[34]。在这项工作中,我们采用了双目立体视觉——一种基于几何的方法——通过计算校正后的立体图像对之间的视差来实现深度估计[35]。视差和深度之间的关系可以使用透视投影原理来表达:D=f?bd
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号