基于门控图卷积的动态图学习在单通道语音分离中的创新应用

《Sports Economics Review》:Dynamic graph learning with gated convolutions for single-channel speech separation

【字体: 时间:2025年10月26日 来源:Sports Economics Review

编辑推荐:

  本文提出了一种新型门控稠密图卷积网络(GDGCN),通过将音频信号转换为非欧几里得图域表示,利用自适应混合拓扑结构和门控机制动态建模声源间的多尺度空间依赖性。该方法在Libri2Mix等基准数据集上展现出优越的语音分离性能,特别适用于噪声环境下的语音增强(Speech Enhancement)和自动语音识别(ASR)等应用场景。

  
章节精选
相关研究
单通道语音分离已被广泛研究,近期方法从频域转向时域 approach,因其能避免相位重建问题并获得更好的分离质量。
循环和卷积神经网络,如BLSTM-TasNet和Conv-TasNet,已被早期时域模型广泛采用。BLSTM-TasNet利用循环结构建模序列...
数学模型
传统语音分离方法在向量空间中操作,而我们的方法在非欧几里得图域中建模该问题。这一转变通过图拓扑显式表示谱-时域关系。
提出方法
在本节中,我们提出了用于语音分离(SS)的门控稠密图卷积网络(GDGCN)。如图2和算法1所示,我们的框架包含三个关键组件:编码器、GDGCN掩码网络和解码器。
数据集
GDGCN模型的评估在三个成熟基准上进行:Libri2Mix、WHAM!和LRS2-2Mix。选择这些数据集是因为它们在评估不同声学条件下语音分离性能方面具有互补特性。
Libri2Mix数据集源自LibriSpeech train-100集合,其语音片段标准化为-25至-33 dB LUFS的响度级别。
性能比较
在本节中,我们在GDGCN与代表主要语音分离范式的先进方法之间进行了全面比较。基线方法包括时域网络(BLSTM-TasNet、Conv-TasNet)、循环架构(DPRNN、DPTNet)、基于注意力的模型(Sepformer)和近期图神经网络(GESGM)。这一多样化选择...
结论
本文提出了GDGCN,一种用于单通道语音分离的新型基于图的方法。通过构建节点代表具有MFCC特征的音频片段的稠密图,我们的方法通过门控图卷积网络有效处理语音混合。门控机制能够在特征更新期间精确控制信息流,即使在噪声条件下也能实现准确的源分离。实验结果表明,GDGCN优于现有...
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号