Voice2Visage：从声音中识别面部特征

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Biometrics, Behavior, and Identity Science》：Voice2Visage: Deciphering Faces From Voices

【字体：大中小】 时间：2025年11月22日 来源：IEEE Transactions on Biometrics, Behavior, and Identity Science 5

编辑推荐：

　　从声音中推断面部特征的研究框架 Voice2Visage，通过自监督跨模态和 intra-模态学习解决声纹与面部关联的挑战，优化数据集并验证面部识别指标可靠性。

摘要：

人类的声音包含了关于个人身份和情感的宝贵信息。一个更有趣的问题是：是否仅凭声音就能推断出一个人的面部特征？现有的研究主要集中在探索自然音频和视觉数据之间的关系，而对说话者声音与面部特征之间的生物特征关联这一特定领域关注较少。本研究旨在建模声音中蕴含的面部相关信息，并最终仅通过未听过的声音来预测一个人的外貌。这项任务面临几个挑战：首先，尽管自然声音存在显著的变化，但人类声音的频率往往相似，这使得建立它们之间的对应关系变得复杂；其次，从声音生成面部图像是一个难以解决的问题，因为诸如妆容和姿态等细节无法仅通过声音来推断。在本文中，我们提出了一个名为Voice2Visage的新框架，该框架利用自监督的跨模态和模内学习方法来预测与输入声音相对应的人脸图像。为了确保我们方法的可行性，我们对现有的自动化数据集收集算法进行了优化。此外，我们还系统地设计了实验来测试面部身份识别领域中常用定量指标的实用性和稳定性。实验结果验证了生成的人脸与参考人脸之间的紧密语义关联，证明了其可靠性。我们的工作为探索人类声音中隐藏的生理特征以及外貌与声音之间的复杂相互作用提供了新的视角。我们的代码可在以下链接获取：https://github.com/colaudiolab/Voice2Visage。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号