基于深度学习的语音刺激连续体合成:对抗训练与互信息解耦框架的创新应用

【字体: 时间:2025年06月19日 来源:Speech Communication 2.4

编辑推荐:

  为解决传统数字信号处理(DSP)方法在语音刺激连续体合成中存在的自然度低、参数动态变化丢失等问题,研究人员采用对抗训练(AT)和互信息(MI)解耦框架,实现了关键声学特征(f0 /F1/F2)的高精度分离与可控生成。该方法在客观和主观评估中MOS值提升0.2-0.3,为语音感知研究提供了更自然的实验材料。

  

在语音感知研究中,构建高质量的语音刺激连续体(即两个语音类别之间沿特定声学维度均匀变化的刺激序列)是探索人类范畴化感知机制的关键。传统方法依赖数字信号处理(DSP)技术手动修改基频(f0
)或共振峰(F1/F2)等参数,但存在三大瓶颈:合成语音自然度低、动态声学线索丢失、多参数协同调控困难。这些问题直接影响感知实验的信效度,例如在汉语声调研究中,Francis等(2003)和Hallé等(2004)发现传统PSOLA和LPC合成技术难以保留语调轮廓的细微变化。

北京语言大学的研究团队在《Speech Communication》发表的研究中,创新性地将语音解耦学习与深度生成模型结合。通过对抗训练(AT)构建监督式解耦框架,同时基于互信息(MI)理论开发无监督解耦方法,成功实现了f0
和共振峰特征的精准分离。研究采用BLCU-SAIT语料库中1520个普通话单音节样本,以梅尔谱为输入特征,通过VAE和GAN框架进行特征解耦与重建。关键技术包括:1) AT框架下的判别器动态优化;2) MI最小化约束的特征独立性学习;3) 神经声码器的高保真重建。

AT-based synthesis部分显示,经过对抗训练后判别器对f0
/F1/F2的识别准确率从70%以上降至接近随机水平(50%),证明声学特征被有效解耦。MI-based synthesis部分通过对比MI值验证了特征独立性,其解耦效果与AT方法相当。在汉语声调和元音连续体生成任务中,两种方法合成的刺激在自然度(MOS)上均显著优于传统DSP方法,其中同步调控F1/F2的复杂任务提升最显著。

该研究的突破性在于:1) 首次将MI理论应用于语音特征解耦,为无监督学习提供新范式;2) 实现多维度声学参数的协同调控,解决/r/-/l/等复杂对立项的合成难题;3) 保留动态声学线索,使合成刺激更符合人类感知特性。正如作者Zhu Li和Yanlu Xie强调的,这项技术不仅提升了语音感知研究的生态效度,其解耦框架还可推广至音乐间隔、图像属性等跨模态连续体合成领域,为认知科学研究提供通用工具。研究也存在局限性,如目前仅验证了单说话人场景,未来需拓展到多说话人和噪声环境下的鲁棒性验证。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号