基于神经辐射场（NeRF）的3D说话人体化身建模与动态手势合成研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月16日 来源：Neurocomputing 6.5

编辑推荐：

　　本文提出TalkingAvatar模型，创新性地结合快速关节神经场变形器（Fast-SNARF）与混合调制注意力模块（HMAM），通过单目视频实现高保真3D说话人体化身的重建与动画合成。该模型采用部位感知学习策略，独立优化头部、手部等小尺度区域，突破传统方法在口型同步（lip-sync）和手势生成中的局限，仅需1分钟训练数据即可生成10fps的协同语音视频，为元宇宙和虚拟直播提供关键技术支撑。

Highlight

本研究首次将神经辐射场（NeRF）技术拓展至完整上半身说话人体化身的生成领域。通过融合快速关节神经场变形器（Fast-SNARF）与创新的部位感知学习策略，成功解决了传统方法在面部表情细节和手部动作建模中的瓶颈问题。

Method

给定单目说话视频，本方法首先在标准T姿势下重建刚性物体（3.1节），随后采用部位感知策略（3.2节）分别优化手部、头部和躯干区域。通过引入UV特征图增强空间纹理学习，结合混合调制注意力模块（HMAM）同步处理身体姿态和语音音频的动态信息，实现精准的口型同步与复杂手势控制。

Dataset

实验采用自建AvatarVideo数据集，包含12名20-55岁受试者的4000帧视频数据。量化评估选取4名典型受试者（Oliver/Seth等），所有数据均包含同步音频记录，为多模态学习提供基础。

Limitations and future work

当前方法在躯干大幅旋转时可能出现未观测区域伪影，这是单目视频重建的共性挑战。未来将通过多视角数据融合提升三维一致性，并探索跨身份泛化能力。

Conclusion

TalkingAvatar作为首个基于NeRF的上半身说话人体动画系统，通过Fast-SNARF关节算法与HMAM动态捕捉模块的协同创新，在仅需1分钟训练数据条件下，实现了包含自然头部运动、流畅手势和精准口型同步的高保真视频生成，为虚拟数字人应用开辟新途径。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号