基于深度感知优化的神经辐射场改进以用于新视角合成

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Image and Vision Computing》：Improving neural radiance fields with depth-aware optimization for novel view synthesis

【字体：大中小】 时间：2026年06月09日 来源：Image and Vision Computing 4.2

编辑推荐：

　　在稠密输入条件下，神经辐射场（Neural Radiance Fields, NeRF）能够在静态场景下渲染出照片级真实感的新视角图像。尽管合成质量优异，现有基于NeRF的方法仍无法获得合理的三维（three-dimensional, 3D）结构。当输入稀疏时

在稠密输入条件下，神经辐射场（Neural Radiance Fields, NeRF）能够在静态场景下渲染出照片级真实感的新视角图像。尽管合成质量优异，现有基于NeRF的方法仍无法获得合理的三维（three-dimensional, 3D）结构。当输入稀疏时，由于隐式重建的不准确3D场景结构，新视角合成质量会急剧下降。研究人员提出了运动恢复结构神经辐射场（Structure-from-Motion Neural Radiance Fields, SfMNeRF），一种能够更好合成新视角并重建3D场景几何的方法。SfMNeRF利用自监督深度估计方法的知识来约束新视角合成训练过程中的3D场景几何。具体而言，SfMNeRF采用极线约束、光度一致性约束、深度平滑性约束以及匹配点位置约束来显式重建3D场景结构。通过这些显式约束以及来自NeRF的隐式约束，研究方法同时提升了NeRF的视角合成和3D场景几何性能。此外，SfMNeRF合成了新视角子像素，其真值通过图像插值获得。该策略使SfMNeRF能够纳入更多样本以提升泛化性能。在三个公开数据集上的实验表明，SfMNeRF在稀疏输入条件下超越了现有最优方法。代码见https://github.com/XTU-PR-LAB/SfMNeRF。

## 研究背景与问题

神经辐射场（NeRF）通过连续五维（5D）函数隐式编码特定场景的三维结构与外观，该函数由训练用的多层感知机（Multi-Layer Perceptron, MLP）参数化，并通过体渲染（volumetric rendering）合成场景的新视角。然而，NeRF的发射颜色与体密度相互纠缠，因此需要稠密输入视角以消除几何歧义。当输入视角稀疏时，NeRF容易找到图像重建目标的退化解。此外，NeRF在包含大量无纹理区域（如沙发和地板）的场景中难以合成良好的新视角，因为这些场景难以在跨视角间获取足够的对应关系。

NeRF在稀疏输入或包含大量无纹理区域场景中表现不佳的根源在于其隐式估计的不准确3D形状。为克服该问题，部分研究工作利用深度先验信息改进NeRF的新视角合成性能。这些深度数据通常通过对输入图像运行运动恢复结构（Structure-from-Motion, SfM）方法估计得到。DS-NeRF采用SfM获取的稀疏3D点作为NeRF优化中的监督信号，但SfM得到的深度先验通常稀疏且含噪声。为获取稠密深度先验，NerfingMVS采用单目深度网络并以SfM重建的稀疏深度作为监督来获取深度先验，进而利用自适应深度先验指导NeRF优化中的体采样。R?ssle等人提出类似方法，采用深度补全将这些稀疏点转换为稠密深度图以指导NeRF优化。然而，这类方案需要提前预测深度先验，使用不便。

## 研究方法与贡献

受自监督深度估计方法启发，研究人员将新视角合成与深度预测整合为单一端到端流程，使两者相互促进。显式深度估计可补偿NeRF中弱隐式3D几何约束的不足，随着深度估计的改进，新视角合成质量相应提升。具体而言，研究人员采用极线几何约束，通过限制一个图像中的点对应于另一图像中的点必须位于称为极线的射线上，以消除像素的深度不确定性。此外，研究人员利用跨多视角的块光度一致性损失（patch photometric consistent loss），通过图像扭曲（warping）实现确保不同视角中相同区域具有相同外观。为进一步减少3D形状歧义，还实施了场景表面平滑约束以及相同特征在不同视角中具有相同世界坐标的匹配点位置约束（position-of-matches constraint）。同时，研究人员实现了子像素渲染（sub-pixel rendering），其中待合成像素的二维图像坐标非整数向量，而是基于图像像素坐标以(0,1)偏移量采样的浮点向量。采样子像素的颜色通过图像双线性插值（bilinear interpolation）获得。这一新采样策略使SfMNeRF能够纳入更多样本以提升泛化性能。与NeRF-SR的超采样用于超分辨率渲染不同，SF-MNeRF的超采样用于增加样本数量以提升性能，且两者的超采样过程也存在差异。

该方法的主要贡献包括：通过采用跨视角一致的块光度损失，SfMNeRF显式约束3D场景几何，在一定程度上减少NeRF中的几何歧义；采用的极线、平滑和匹配点位置约束使SfMNeRF能够感知场景结构，从而提升新视角合成质量；SfMNeRF中实现的子像素渲染提升了NeRF的泛化能力。

## 关键技术方法

本研究在LLFF-NeRF、ScanNet、DTU MVS（DTU）数据集以及NeRF的真实感合成数据集上进行评估。LLFF数据集由手机拍摄的八个场景构成，每场景含20–62张图像，分辨率为4032×3024，研究人员将图像降采样至504×378像素。研究采用PyTorch深度学习库实现SF-MNeRF框架。方法流程为：首先从数据集中选取两张图像，一张作为参考图像，另一张选取与参考图像有重叠区域的图像；其次在每幅图像中提取尺度不变特征变换（Scale-Invariant Feature Transform, SIFT）特征并获取匹配SIFT对应关系；最后将匹配SIFT对应关系输入后续处理。

## 研究结果

关于SfMNeRF框架用于视角合成的流程，主要由图1和图2展示。框架首先进行图像对选择与特征匹配，通过提取SIFT特征获取匹配对应关系，为后续深度估计和视角合成提供基础。

在实验细节部分，研究人员说明了所采用的公开数据集情况：LLFF数据集降采样后的处理、ScanNet室内场景数据集、DTU多视图立体重建数据集以及NeRF真实感合成数据集。这些数据集涵盖了室内室外、真实合成等多种场景类型，为方法验证提供了全面基础。

## 研究结论与未来展望

研究人员分析了NeRF的局限性，提出了SfMNeRF这一能够通过自监督深度约束提升新视角合成质量的神经辐射场方法。所采用的深度先验通过多视角间基于块的光度一致性约束、极线约束和匹配特征位置约束等获取，无需额外数据。通过该方式，研究方法学习到具有多视角一致性的深度几何表示，同时提升了新视角合成和3D场景几何重建的质量。未来工作可进一步探索更高效的几何约束形式以及更广泛的场景适用性。

联系信箱：

粤ICP备09063491号

热点排行