基于神经辐射场(NeRF)的3D说话人体化身建模与动态手势合成研究

【字体: 时间:2025年09月16日 来源:Neurocomputing 6.5

编辑推荐:

  本文提出TalkingAvatar模型,创新性地结合快速关节神经场变形器(Fast-SNARF)与混合调制注意力模块(HMAM),通过单目视频实现高保真3D说话人体化身的重建与动画合成。该模型采用部位感知学习策略,独立优化头部、手部等小尺度区域,突破传统方法在口型同步(lip-sync)和手势生成中的局限,仅需1分钟训练数据即可生成10fps的协同语音视频,为元宇宙和虚拟直播提供关键技术支撑。

  

Highlight

本研究首次将神经辐射场(NeRF)技术拓展至完整上半身说话人体化身的生成领域。通过融合快速关节神经场变形器(Fast-SNARF)与创新的部位感知学习策略,成功解决了传统方法在面部表情细节和手部动作建模中的瓶颈问题。

Method

给定单目说话视频,本方法首先在标准T姿势下重建刚性物体(3.1节),随后采用部位感知策略(3.2节)分别优化手部、头部和躯干区域。通过引入UV特征图增强空间纹理学习,结合混合调制注意力模块(HMAM)同步处理身体姿态和语音音频的动态信息,实现精准的口型同步与复杂手势控制。

Dataset

实验采用自建AvatarVideo数据集,包含12名20-55岁受试者的4000帧视频数据。量化评估选取4名典型受试者(Oliver/Seth等),所有数据均包含同步音频记录,为多模态学习提供基础。

Limitations and future work

当前方法在躯干大幅旋转时可能出现未观测区域伪影,这是单目视频重建的共性挑战。未来将通过多视角数据融合提升三维一致性,并探索跨身份泛化能力。

Conclusion

TalkingAvatar作为首个基于NeRF的上半身说话人体动画系统,通过Fast-SNARF关节算法与HMAM动态捕捉模块的协同创新,在仅需1分钟训练数据条件下,实现了包含自然头部运动、流畅手势和精准口型同步的高保真视频生成,为虚拟数字人应用开辟新途径。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号