通过并行幅度和相位预测实现高质量、高效的语音带宽扩展

《IEEE Transactions on Audio, Speech and Language Processing》:Towards High-Quality and Efficient Speech Bandwidth Extension With Parallel Amplitude and Phase Prediction

【字体: 时间:2025年11月27日 来源:IEEE Transactions on Audio, Speech and Language Processing

编辑推荐:

  本文提出基于生成对抗网络(GAN)的带宽扩展模型AP-BWE,采用双流架构分别扩展幅度和相位谱的高频成分,结合波形级多周期判别器和频谱级多分辨率判别器提升自然度,实验表明其16kHz和48kHz下语音质量优异且生成效率极高,首次实现高频相位谱的直接扩展。

  

摘要:

语音带宽扩展(BWE)是指扩大语音信号的频率带宽范围,从而提升语音质量,使其更加清晰、饱满。本文提出了一种基于生成对抗网络(GAN)的BWE模型,该模型能够并行预测幅度和相位谱,命名为AP-BWE,实现了高质量且高效的宽带语音波形生成。所提出的AP-BWE生成器完全基于卷积神经网络(CNN)。它采用双流架构,幅度流和相位流相互协作,分别扩展来自源窄带幅度和相位谱的高频成分。为了提高扩展后语音信号的自然度,我们在波形层面采用了多周期判别器,并在频谱层面设计了一对多分辨率幅度和相位判别器。实验结果表明,所提出的AP-BWE在16 kHz和48 kHz采样率下的语音质量方面均达到了业界领先水平。在生成效率方面,由于采用了全卷积架构和全帧级操作,AP-BWE在单颗RTX 4090 GPU上生成48 kHz波形样本的速度是实时的292.3倍,在单颗CPU上则是实时的18.1倍。值得注意的是,据我们所知,AP-BWE是首个实现高频相位谱直接扩展的算法,这对于提升现有BWE方法的效果非常有益。

引言

在实际的语音信号传输场景中,通信设备或传输通道的局限性可能导致语音信号的频率带宽被截断。高频信息的缺失会导致语音失真、声音模糊或清晰度降低。语音带宽扩展(BWE)旨在从低频成分中补充缺失的高频带宽,从而提升窄带语音信号的质量和可懂度。早期,通信设备的带宽极为有限,例如公共交换电话网络(PSTN)中的语音信号带宽不足4 kHz,因此早期的BWE研究主要集中在将带宽扩展到最大目标频率8 kHz。随着通信技术的进步,通信设备能够传输的信号带宽不断扩大。因此,最近的语音BWE研究越来越多地关注将带宽扩展到人耳的感知频率极限(如22.05 kHz或24 kHz),从而应用于高质量移动通信、音频重制和增强等领域。语音BWE可以应用于各种语音信号处理领域,如文本到语音(TTS)合成[1]、自动语音识别(ASR)[2][3]、语音增强(SE)[4][5]以及语音编解码[6]等。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号