
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于网格嵌入高斯模型的单目视频人体三维重建技术RMAvatar:实现高保真可动画虚拟人像
【字体: 大 中 小 】 时间:2025年05月27日 来源:Graphical Models 2.5
编辑推荐:
针对单目视频中人体高保真三维重建的挑战,研究人员提出RMAvatar技术,通过将高斯模型嵌入网格框架,结合姿态相关修正模块,显著提升了虚拟人像在复杂非刚性变形(如衣物褶皱)下的真实感。该研究在PSNR、SSIM等指标上达到SOTA水平,为AR/VR应用提供了高效解决方案。
在数字人技术快速发展的今天,如何从单目视频中重建高保真、可动画的人体三维模型一直是计算机视觉领域的核心挑战。传统方法依赖多视角相机系统,而日常场景中往往只能获取单目视频数据,这导致重建过程存在严重的欠约束问题。尤其当人体穿着宽松衣物或做出大幅度动作时,衣物褶皱、头发飘动等高频细节的重建质量直接影响虚拟人像的真实感。现有基于神经辐射场(NeRF)的方法存在渲染速度慢、细节模糊等问题,而纯网格模型难以捕捉复杂非刚性变形。
针对这些技术瓶颈,中国研究团队在《Graphical Models》发表创新成果RMAvatar,提出将高斯模型(Gaussian Splatting)嵌入参数化人体网格的混合表示方法。该技术通过两个核心模块——高斯初始化模块和姿态相关修正模块,实现了对人体刚性运动和非刚性变形的精准建模。实验表明,该方法在PeopleSnapshot、ZJU-MoCap等数据集上的PSNR指标最高提升4.15dB,LPIPS降低0.029,首次在单目视频条件下实现了媲美多视角系统的重建质量。
关键技术方面,研究团队首先利用SMPL(Skinned Multi-Person Linear)模型获取基础人体网格,通过线性混合蒙皮(LBS)算法驱动网格变形。创新性地在网格三角形局部坐标系中初始化3D高斯模型,通过自适应分裂、克隆和剪枝操作优化高斯分布密度。为突破LBS在非刚性变形上的局限,设计基于MLP的修正模块预测位置偏移(δμ)、旋转调整(δr)和缩放变化(δs),其输出通过频率编码γ(·)增强空间敏感性。最终通过可微分高斯光栅化实现实时渲染,训练过程综合RGB损失、SSIM感知损失和正则化约束。
研究结果部分,3.1节阐明高斯模型参数化方法,证明协方差矩阵Σ=RSSTRT分解能保证半正定性;3.2节展示网格嵌入策略,通过公式μ*=wRμ+M实现局部到全局坐标转换;3.3节验证修正模块对衣物褶皱的建模能力,δμ偏移量被约束在εpos=1阈值内;3.4节通过消融实验证实,λoffset=0.1的正则项能平衡细节保留与稳定性。在4.1节的跨数据集评估中,RMAvatar在ZJU-MoCap 394序列达到32.70 PSNR,较基线提升6.59dB;DynVideo数据集上对宽松衣物的重建误差降低21%。
结论部分指出,这项研究首次实现网格拓扑约束与高斯表达灵活性的统一,其技术价值体现在三方面:1) 通过网格嵌入解决单目视频的歧义性问题,2) 修正模块突破LBS的线性变形局限,3) 实时渲染效率达200FPS。讨论部分强调该方法在虚拟试衣、远程医疗等场景的应用潜力,同时指出当前对极端姿态的泛化能力仍需提升。这项工作为单目视觉下的数字人重建树立了新基准,其开源代码已发布在项目主页https://rm-avatar.github.io。
生物通微信公众号
知名企业招聘