
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于神经辐射场(NeRF)的3D说话人体化身建模与动态手势合成研究
【字体: 大 中 小 】 时间:2025年09月16日 来源:Neurocomputing 6.5
编辑推荐:
本文提出TalkingAvatar模型,创新性地结合快速关节神经场变形器(Fast-SNARF)与混合调制注意力模块(HMAM),通过单目视频实现高保真3D说话人体化身的重建与动画合成。该模型采用部位感知学习策略,独立优化头部、手部等小尺度区域,突破传统方法在口型同步(lip-sync)和手势生成中的局限,仅需1分钟训练数据即可生成10fps的协同语音视频,为元宇宙和虚拟直播提供关键技术支撑。
Highlight
本研究首次将神经辐射场(NeRF)技术拓展至完整上半身说话人体化身的生成领域。通过融合快速关节神经场变形器(Fast-SNARF)与创新的部位感知学习策略,成功解决了传统方法在面部表情细节和手部动作建模中的瓶颈问题。
Method
给定单目说话视频,本方法首先在标准T姿势下重建刚性物体(3.1节),随后采用部位感知策略(3.2节)分别优化手部、头部和躯干区域。通过引入UV特征图增强空间纹理学习,结合混合调制注意力模块(HMAM)同步处理身体姿态和语音音频的动态信息,实现精准的口型同步与复杂手势控制。
Dataset
实验采用自建AvatarVideo数据集,包含12名20-55岁受试者的4000帧视频数据。量化评估选取4名典型受试者(Oliver/Seth等),所有数据均包含同步音频记录,为多模态学习提供基础。
Limitations and future work
当前方法在躯干大幅旋转时可能出现未观测区域伪影,这是单目视频重建的共性挑战。未来将通过多视角数据融合提升三维一致性,并探索跨身份泛化能力。
Conclusion
TalkingAvatar作为首个基于NeRF的上半身说话人体动画系统,通过Fast-SNARF关节算法与HMAM动态捕捉模块的协同创新,在仅需1分钟训练数据条件下,实现了包含自然头部运动、流畅手势和精准口型同步的高保真视频生成,为虚拟数字人应用开辟新途径。
生物通微信公众号
知名企业招聘