
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于大张量SDF模型的高保真光照解耦纹理网格生成方法LDM研究
【字体: 大 中 小 】 时间:2025年06月22日 来源:Graphical Models 2.5
编辑推荐:
研究人员针对现有3D生成方法(NeRF/3DGS)几何质量差、纹理含光照信息等问题,提出LDM(Large tensorial SDF Model)框架,通过多视角扩散模型生成输入,结合Transformer预测张量SDF场,最终输出具有光照解耦纹理的高质量网格。该研究首次实现秒级生成生产级3D资产,为下游应用提供可直接编辑的素材。
在数字内容创作领域,生成高质量3D资产一直是核心挑战。传统方法如神经辐射场(NeRF)和3D高斯泼溅(3DGS)虽能快速生成3D内容,但存在几何不平滑、纹理嵌入光照信息等问题,难以满足现代渲染管线需求。更棘手的是,现有学习型方法无法提供光照解耦的纹理贴图,导致生成的3D资产无法直接用于重光照和材质编辑等下游应用。这些局限性严重制约了生成式3D技术在影视制作、游戏开发等领域的实际应用价值。
针对这些技术瓶颈,国内研究人员开发了名为LDM(大张量SDF模型)的创新框架。这项发表在《Graphical Models》的研究,通过多阶段训练策略和新型表征方式,实现了从单图或文本提示快速生成高保真3D网格的能力。研究团队采用多视角扩散模型生成初始输入,设计基于Transformer的张量SDF预测器,并创新性地引入自适应β调整策略解决SDF到密度场转换的稳定性问题。最终模型可在10秒内输出带有光照解耦纹理的3D网格,其质量显著优于现有方法。
关键技术包括:1)采用MVDream/ImageDream多视角扩散模型生成4视角输入;2)基于TensoRF的张量SDF表征结合自适应β转换策略;3)两阶段训练方案(先体积渲染后Flexicube优化);4)光照分解模块(albedo与shading分离);5)DINO2图像编码器与Transformer架构的预测模型。实验数据来自GObjaverse数据集的8万个3D对象。
【3. Method】研究团队提出分阶段生成框架:首先通过多视角扩散模型(MVDream用于文本输入,ImageDream用于图像输入)生成4个正交视角图像;随后采用DINO2图像编码器提取特征,通过包含AdaLN的Transformer架构预测张量SDF场;最后通过Flexicube层提取高质量网格。为应对多视角不一致性,训练时特别添加了网格畸变和相机抖动等数据增强。
【4. Experiment】定量评估显示,在GSO数据集上LDM的PSNR(22.52)、SSIM(0.873)等指标均优于对比方法。如图4所示,相比LRM的多面Janus问题、LGM的几何模糊等缺陷,LDM生成的汽车、青蛙等模型展现出更清晰的几何细节。消融实验证实,张量SDF表征比Triplane SDF收敛更快(图6),Flexicube层能提升30%纹理清晰度(图8),而光照解耦模块使重光照效果更真实(图5)。
【5. Application】实际应用验证显示,生成的3D资产可完美支持场景重光照(图10)和材质编辑(图11)。用户可自由修改金属度、粗糙度等PBR材质属性,创造出如"金属汉堡"等趣味效果,证实了该方法在数字内容生产中的实用价值。
研究结论指出,LDM是首个能秒级生成光照解耦纹理网格的端到端框架,其创新点包括:1)将张量表征引入生成任务,提升SDF场预测效率;2)自适应β调整策略解决生成式任务的SDF转换难题;3)梯度网格优化层实现高质量几何提取。尽管在透明材质处理等方面存在局限,但该工作为生成式3D内容生产提供了新范式,特别在需要材质编辑的影视游戏应用中具有重要价值。研究代码已在GitHub开源,为社区发展奠定基础。
生物通微信公众号
知名企业招聘