
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于3D面部先验的高保真音频驱动面部肖像生成技术FacialTalk研究
【字体: 大 中 小 】 时间:2025年07月19日 来源:Pattern Recognition 7.5
编辑推荐:
推荐:研究人员针对NeRF(神经辐射场)音频驱动面部生成中3D信息不足导致的几何重建失真问题,提出FacialTalk框架。通过融合原始3D面部标志点与音频特征,结合地标空间感知编码(LS-AE)和自适应躯干感知编码(AT-PE),实现37.1876 dB的峰值信噪比(PNSR),显著提升唇部同步与表情动态的自然度。
在数字人、元宇宙和影视制作领域,生成与语音同步的高保真面部肖像视频是核心技术挑战。现有基于神经辐射场(Neural Radiance Fields, NeRF)的方法常因3D面部信息不足导致几何重建失真,且音频与面部特征简单融合易引发唇部同步偏差和表情僵硬。针对这一难题,获得国家自然科学基金(62202151/62202152)和湖南省教育厅科研项目(23B0862)支持的国内研究团队在《Pattern Recognition》发表创新成果。
研究团队采用3D形变模型(3DMM)提供的原始面部标志点作为共享条件,开发Landmark Spatial-Aware Encoding技术,通过空间注意力机制将唇部区域(嘴唇运动)与其他表情区域(非语音相关运动)的特征解耦。结合Adaptive Torso Perception Encoding同步头部姿态与躯干运动,最终实现音频与面部动作的精准映射。关键技术包括:1) 从512×512分辨率视频和16kHz音频构建训练集;2) 将3D标志点与音频特征映射到统一空间;3) 在NeRF三维空间中融合颜色与体积密度属性。
【Talking facial portrait generation】
研究指出传统2D方法受限于3D真实感,而现有3DMM方法难以处理语音-表情的一对多映射。FacialTalk通过分离编码语音相关/无关区域,解决了GeneFace等方法的中介操作冗余问题。
【Method】
框架采用双分支结构:音频分支学习语音-运动映射,标志点分支通过空间编码生成区域特异性特征。关键创新是引入可学习的位置编码矩阵,为不同面部区域分配独立注意力权重。
【Experimental settings】
在25FPS的6500帧视频测试中,系统达到37.1876dB PNSR。定量分析显示其唇部同步误差比AD-NeRF降低23%,头部姿态自然度提升17%。
【Limitation and discussion】
尽管在3D几何重建精度上仍有提升空间,但该方法首次实现原始标志点特征的无损编码,为多模态特征融合提供了新范式。
该研究突破性地将空间感知编码引入NeRF框架,不仅解决音频驱动中的特征干扰问题,更通过Daowu Yang等人设计的自适应躯干建模,为数字人自然运动设定了新标准。技术路线可扩展至虚拟现实、远程会议等场景,标志着音频-视觉跨模态生成技术的重要进展。
生物通微信公众号
知名企业招聘