基于多视角扩散模型的高斯泼溅生成式物体插入技术研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月18日 来源：Visual Informatics 3.8

编辑推荐：

　　为解决3D场景中物体插入存在的视角不一致、质量低下和场景融合性差等问题，研究人员开发了基于多视角扩散模型(MVInpainter)的高斯泼溅(Gaussian Splatting)生成式物体插入方法。通过结合ControlNet条件注入模块和掩码感知重建技术，实现了高质量、视角一致且与场景和谐融合的3D物体生成。该研究为虚拟现实、游戏和数字内容创作提供了创新解决方案。

在数字内容创作和虚拟现实领域，3D场景编辑技术正迎来爆发式增长。然而，现有方法在向3D场景中插入新物体时面临三大难题：不同视角下的生成一致性难以保证，插入物体质量参差不齐，以及与场景背景的融合效果不佳。这些问题严重制约了虚拟场景的真实感和创作自由度。传统方法如基于Score Distillation Sampling（SDS）的优化存在随机性高、结果过饱和等缺陷，而单视角修复技术又无法保证多视角一致性。

为解决这些挑战，研究人员开发了一种创新性的高斯泼溅生成式物体插入框架。该研究首次将多视角扩散模型（MVInpainter）应用于3D物体插入任务，通过结合预训练的Stable Video Diffusion（SVD）模型和ControlNet条件注入模块，实现了高质量、视角一致的物体生成。研究成果发表在《Visual Informatics》上，为3D内容创作提供了新的技术路径。

研究采用了三项关键技术：首先，利用SDS优化获取粗略几何先验；其次，开发了MVInpainter模型，整合了多视角扩散模块和ControlNet条件注入模块；最后，提出了掩码感知的3D重建技术，通过结合修复视图和原始训练视图来优化高斯泼溅重建。实验数据来自Wild-RGBD和SPIn-NeRF等公开数据集。

研究结果显示，在"多视角修复"方面，MVInpainter能生成14个视角一致的修复结果，显著优于单视角修复方法。定量评估显示，该方法在CLIP文本图像相似度（CTIS）和方向性文本图像相似度（DTIS）指标上分别达到0.2977和0.2033，优于现有技术。"ControlNet模块"的消融实验证实，该模块能确保生成内容与相机轨迹精确匹配，PSNR达到34.962。"输入条件"分析表明，背景和深度参考的缺失会导致明显的伪影和形状不一致。"掩码感知重建"技术将背景重建的PSNR提升至35.592，有效减少了视角范围外的伪影。

在"多样化编辑"实验中，该方法展示了强大的生成能力，能在相同设置下产生多样化的结果，如不同材质和颜色的烛台。特别值得注意的是，该方法还能处理反射物体，生成具有视角依赖效应的表面，这在以往研究中较为罕见。

研究结论部分指出，该方法通过规避SDS优化的固有缺陷，实现了更高质量、更一致的3D内容生成。与现有技术相比，新方法在文本一致性、编辑有效性和真实感三个方面都有显著提升。讨论部分强调了该技术在虚拟现实、游戏开发等领域的应用潜力，同时也指出了当前在360度内容生成、物体移除和阴影处理方面的局限性。

这项研究的创新性主要体现在三个方面：首次将多视角扩散模型应用于3D物体插入；提出了整合背景信息、边界框掩码和深度的新型生成框架；开发了提升稀疏视图重建质量的掩码感知技术。这些突破为3D内容创作提供了新的技术路径，有望推动相关产业的创新发展。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号