提升嘴唇动态的真实感：学习用于说话头像合成的三维时间表示方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Multimedia Computing, Communications, and Applications》：Enhancing Lip Dynamic Authenticity: Learning 3D Temporal Representations for Talking Head Synthesis

【字体：大中小】 时间：2025年11月07日 来源：ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐：

　　3D时序表示学习提升唇动同步真实性的方法研究。现有方法忽视3D几何信息捕捉，本文提出双策略3D-TRL算法：基于几何重建的隐空间运动令牌提取和对比学习驱动的时序表征优化，有效提升唇动动态自然度，适配多种网络框架。

摘要

基于音频的 talking head（头部动画）合成旨在生成与音频同步的逼真面部动画。目前的方法主要集中在二维视觉空间中的嘴唇运动信息上，以实现唇部与音频的同步以及富有表现力的嘴唇动态效果，但往往忽略了能够更准确捕捉现实世界中嘴唇运动的三维几何运动表示。这种忽视可能导致嘴唇动态效果的真实性不够理想。在这项工作中，我们提出了一种新的三维时间表示学习（3D-TRL）算法，该算法将嘴唇的三维时间信息建模为潜在表示，并利用这些表示作为额外的监督信息来提升动态效果的真实性。为此，我们采用了基于三维可变形模型（3DMM）构建的几何网格作为嘴唇的三维信息，并探索了两种自监督策略来学习三维几何空间中的时间表示。首先，我们提出了一种以重建为导向的 3D-TRL 算法，该算法通过重建输入数据在隐藏空间中获取运动标记，同时保留内容的完整性和序列的丰富上下文信息。其次，我们开发了一种基于对比学习的 3D-TRL 算法，该算法利用对比学习来提取隐藏的三维运动表示。这种算法采用了专门针对嘴唇三维时间序列的数据增强策略。大量实验表明，我们的方法作为一种通用且可适应的监督机制，可以集成到各种先进的网络框架中，从而显著提升嘴唇动态效果的真实性。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号