
-
生物通官微
陪你抓住生命科技
跳动的脉搏
通过并行幅度和相位预测实现高质量、高效的语音带宽扩展
《IEEE Transactions on Audio, Speech and Language Processing》:Towards High-Quality and Efficient Speech Bandwidth Extension With Parallel Amplitude and Phase Prediction
【字体: 大 中 小 】 时间:2025年11月27日 来源:IEEE Transactions on Audio, Speech and Language Processing
编辑推荐:
本文提出基于生成对抗网络(GAN)的带宽扩展模型AP-BWE,采用双流架构分别扩展幅度和相位谱的高频成分,结合波形级多周期判别器和频谱级多分辨率判别器提升自然度,实验表明其16kHz和48kHz下语音质量优异且生成效率极高,首次实现高频相位谱的直接扩展。
在实际的语音信号传输场景中,通信设备或传输通道的局限性可能导致语音信号的频率带宽被截断。高频信息的缺失会导致语音失真、声音模糊或清晰度降低。语音带宽扩展(BWE)旨在从低频成分中补充缺失的高频带宽,从而提升窄带语音信号的质量和可懂度。早期,通信设备的带宽极为有限,例如公共交换电话网络(PSTN)中的语音信号带宽不足4 kHz,因此早期的BWE研究主要集中在将带宽扩展到最大目标频率8 kHz。随着通信技术的进步,通信设备能够传输的信号带宽不断扩大。因此,最近的语音BWE研究越来越多地关注将带宽扩展到人耳的感知频率极限(如22.05 kHz或24 kHz),从而应用于高质量移动通信、音频重制和增强等领域。语音BWE可以应用于各种语音信号处理领域,如文本到语音(TTS)合成[1]、自动语音识别(ASR)[2][3]、语音增强(SE)[4][5]以及语音编解码[6]等。
生物通微信公众号
知名企业招聘