多尺度特征融合网络(MFFN)在单声道语音分离中的突破性应用

【字体: 时间:2025年06月19日 来源:Speech Communication 2.4

编辑推荐:

  针对双路径网络(DPRNN)在单声道语音分离(MSS)中固定感受野导致的特征提取局限,研究团队创新性提出多尺度特征融合网络(MFFN)。该网络通过Transformer多尺度采样(MSN)和并行挤压激励(SE)模块实现跨尺度特征捕获,结合协同注意力机制融合多层次特征,在WSJ0-2mix数据集上取得21.2 dB SI-SNRi的显著性能提升,为实时语音处理设备提供新方案。

  

在人工智能语音交互和助听设备快速发展的今天,单声道语音分离(Monaural Speech Separation, MSS)技术面临重大挑战。传统时频域(T-F)方法依赖短时傅里叶变换(STFT),存在相位估计误差和延迟问题;而时域方法如TASNET虽降低延迟,但双路径网络(DPRNN)固定分块策略导致多尺度特征丢失。重庆某高校Jianjun Lei团队在《Speech Communication》发表的研究,通过多级特征融合网络(MFFN)突破这一瓶颈。

研究采用三大核心技术:1)基于Transformer的多尺度采样网络(MSN),通过变步长一维卷积捕获不同时间尺度特征;2)并行通道/时序挤压激励(SE)模块,利用全局平均池化和门控机制强化局部特征;3)协同注意力机制融合多层次特征。实验使用WSJ0-2mix、Libri2mix等数据集验证性能。

【Method】部分显示,MSN模块创新性地将输入特征通过步长分别为8/16/32的一维卷积下采样,经平均池化对齐后输入Transformer块,最后通过转置卷积恢复维度。SE模块则分别在通道和时序维度执行"压缩-激励"操作,其中时序SE通过LSTM实现动态权重分配。

【Experiments and analyses】证实,在8kHz采样率的WSJ0-2mix测试集上,MFFN使SI-SNRi(尺度不变信噪比改善)达到21.2dB,较传统DPRNN提升1.8dB。特别在WHAMR!噪声数据集上,时延降低23%的同时保持18.7dB的SDRi(信干噪比改善),证明其抗干扰能力。

【Conclusion】指出该研究首次实现三重突破:1)通过多尺度采样策略解决DPRNN固定感受野问题;2)SE模块双维度特征增强;3)注意力驱动的层级特征融合。这些创新为医疗助听设备的实时降噪和智能音箱的远场语音分离提供了新范式,未来可扩展至多说话人场景。论文同时开源了在LibriMix数据集上预训练的模型参数,推动领域技术共享。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号