基于多视角扩散模型的高斯泼溅生成式物体插入技术研究

【字体: 时间:2025年06月18日 来源:Visual Informatics 3.8

编辑推荐:

  为解决3D场景中物体插入存在的视角不一致、质量低下和场景融合性差等问题,研究人员开发了基于多视角扩散模型(MVInpainter)的高斯泼溅(Gaussian Splatting)生成式物体插入方法。通过结合ControlNet条件注入模块和掩码感知重建技术,实现了高质量、视角一致且与场景和谐融合的3D物体生成。该研究为虚拟现实、游戏和数字内容创作提供了创新解决方案。

  

在数字内容创作和虚拟现实领域,3D场景编辑技术正迎来爆发式增长。然而,现有方法在向3D场景中插入新物体时面临三大难题:不同视角下的生成一致性难以保证,插入物体质量参差不齐,以及与场景背景的融合效果不佳。这些问题严重制约了虚拟场景的真实感和创作自由度。传统方法如基于Score Distillation Sampling(SDS)的优化存在随机性高、结果过饱和等缺陷,而单视角修复技术又无法保证多视角一致性。

为解决这些挑战,研究人员开发了一种创新性的高斯泼溅生成式物体插入框架。该研究首次将多视角扩散模型(MVInpainter)应用于3D物体插入任务,通过结合预训练的Stable Video Diffusion(SVD)模型和ControlNet条件注入模块,实现了高质量、视角一致的物体生成。研究成果发表在《Visual Informatics》上,为3D内容创作提供了新的技术路径。

研究采用了三项关键技术:首先,利用SDS优化获取粗略几何先验;其次,开发了MVInpainter模型,整合了多视角扩散模块和ControlNet条件注入模块;最后,提出了掩码感知的3D重建技术,通过结合修复视图和原始训练视图来优化高斯泼溅重建。实验数据来自Wild-RGBD和SPIn-NeRF等公开数据集。

研究结果显示,在"多视角修复"方面,MVInpainter能生成14个视角一致的修复结果,显著优于单视角修复方法。定量评估显示,该方法在CLIP文本图像相似度(CTIS)和方向性文本图像相似度(DTIS)指标上分别达到0.2977和0.2033,优于现有技术。"ControlNet模块"的消融实验证实,该模块能确保生成内容与相机轨迹精确匹配,PSNR达到34.962。"输入条件"分析表明,背景和深度参考的缺失会导致明显的伪影和形状不一致。"掩码感知重建"技术将背景重建的PSNR提升至35.592,有效减少了视角范围外的伪影。

在"多样化编辑"实验中,该方法展示了强大的生成能力,能在相同设置下产生多样化的结果,如不同材质和颜色的烛台。特别值得注意的是,该方法还能处理反射物体,生成具有视角依赖效应的表面,这在以往研究中较为罕见。

研究结论部分指出,该方法通过规避SDS优化的固有缺陷,实现了更高质量、更一致的3D内容生成。与现有技术相比,新方法在文本一致性、编辑有效性和真实感三个方面都有显著提升。讨论部分强调了该技术在虚拟现实、游戏开发等领域的应用潜力,同时也指出了当前在360度内容生成、物体移除和阴影处理方面的局限性。

这项研究的创新性主要体现在三个方面:首次将多视角扩散模型应用于3D物体插入;提出了整合背景信息、边界框掩码和深度的新型生成框架;开发了提升稀疏视图重建质量的掩码感知技术。这些突破为3D内容创作提供了新的技术路径,有望推动相关产业的创新发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号