通过解耦说话人分离与语音识别提升鲁棒多说话人自动语音识别(ASR)性能

《Speech Communication》:Elevating robust multi-talker ASR by decoupling speaker separation and speech recognition

【字体: 时间:2026年06月09日 来源:Speech Communication 3

编辑推荐:

  摘要:尽管深度学习(deep learning)的引入使自动语音识别(ASR)取得了巨大成功,但在许多真实多说话人场景中,其性能仍不令人满意。说话人分离(speaker separation)在分离单个说话人方面表现出色,但作为前端(frontend),它会引

  
摘要:尽管深度学习(deep learning)的引入使自动语音识别(ASR)取得了巨大成功,但在许多真实多说话人场景中,其性能仍不令人满意。说话人分离(speaker separation)在分离单个说话人方面表现出色,但作为前端(frontend),它会引入处理伪影(processing artifacts),从而降低在干净语音上训练的ASR后端的性能。因此,主流鲁棒ASR系统会在噪声语音上训练后端,以减轻处理伪影。在这项工作中,研究人员提出解耦(decouple)说话人分离前端和ASR后端的训练,并在仅在干净语音上训练后端的条件下评估所提系统。这种解耦系统在Libri2Mix开发/测试集上实现了5.1%的词错误率(WER),显著优于其他多说话人ASR基线。其在单通道和六通道SMS-WSJ上的有效性也通过最先进的7.60%/5.74% WER得到验证。此外,在录制的LibriCSS上,研究人员获得了2.92%的说话人属性WER(speaker-attributed WER)。这些最先进的结果表明,解耦说话人分离与识别是提升鲁棒多说话人ASR性能的有效方法。最后,研究人员提供了对声学条件的见解,在这些条件下,解耦方法有望优于在噪声语音上训练的主流方法。
研究背景:尽管深度学习推动了自动语音识别(ASR)的巨大进步,从高斯混合模型-隐马尔可夫模型(GMM-HMM)发展到深度神经网络-隐马尔可夫混合系统(DNN-HMM)及端到端(E2E)系统,但在混响、背景噪声和说话人重叠等声学干扰下,ASR性能仍不理想。语音分离(speaker separation)技术(如时域或时频域模型)能够有效分离单个说话人,但作为前端会引入处理伪影,导致在干净语音上训练的ASR后端性能下降。主流鲁棒ASR系统通过在噪声/增强语音上训练后端(即“失真容忍”方法)来缓解这一不匹配,但多说话人场景下,直接在重叠语音上训练ASR存在标注数据少、单说话人性能下降等问题。现有研究常见做法包括排列不变训练(PIT)和联合训练,但联合训练会牺牲模块灵活性。因此,研究人员提出解耦(decouple)说话人分离前端与ASR后端训练,后端仅在干净语音上训练,以消除前端输出与后端训练数据之间的不匹配。该研究在《Speech Communication》发表。

研究人员开展的研究:采用TF-CrossNet(时频交叉网络)和SpatialNet(空间网络)作为单/多通道说话人分离前端,SSND(基于神经日记化的说话人分离)用于连续语音;后端使用因子化时延神经网络(TDNN-F)或宽残差Conformer(WRConformer)模型(基于连接时序分类(CTC)和注意力机制)。在Libri2Mix、SMS-WSJ、SMS-WSJ-Large和LibriCSS四个语料库上评估,比较不同后端训练数据(干净语音 vs. 噪声语音)下的词错误率(WER)。主要技术方法:(1)前端模型:TF-CrossNet在时频域采用窄带与跨带模块,利用自注意力机制和时域卷积实现说话人聚类与平滑;SpatialNet通过窄带和跨带块利用空间信息进行多通道复数频谱映射;SSND通过编码器-解码器吸引子模块(MC-EEND)进行日记化,利用非重叠帧的说话人嵌入辅助分离。(2)后端模型:TDNN-F由8层组成,配合WSJ三元语言模型解码;WRConformer使用改进的宽残差卷积神经网络(WRCNN)进行子采样,10个Conformer编码器和6个Transformer解码器,基于WavLM自监督学习(SSL)特征或log-Mel特征。(3)训练策略:前端与后端独立训练,后端只在干净语音上训练,无需联合微调。数据集来源包括LibriSpeech(干净语音)、WHAM!(噪声)和WSJ0/WSJ1,SMS-WSJ-Large由研究人员生成。

研究结果:
(1)Libri2Mix结果:TF-CrossNet前端在开发集上达到14.70 dB的信号失真比(SDR)和14.19 dB的尺度不变信噪比(SI-SNR)。解耦系统(后端在Libri2Mix干净语音上训练)在测试集上取得5.1% WER,相对优于此前最佳结果6.4% WER超过20%。对比结果表明,当使用强分离前端时,后端在干净语音上训练的效果优于在噪声语音上训练。
(2)SMS-WSJ结果:TF-CrossNet在1-ch和6-ch条件均优于所有基线分离模型(SDR和WER指标)。后端在直接路径语音上训练时,1-ch和6-ch测试集WER分别为7.60%和5.74%,优于此前最佳(训练数据量多三倍的噪声语音训练后端)的7.91%和6.70%。匹配训练(在前端分离数据上训练后端)虽可进一步降低WER,但损失模块灵活性。
(3)SMS-WSJ-Large结果:增大前端训练数据(4倍)后,解耦方法在更多声学条件下优于主流方法。1-ch条件下,当T60为0.2–0.5 s且信噪比(SNR)在0–40 dB时解耦方法占优;6-ch条件下,T60为0.2–1.1 s且SNR≥10 dB时解耦方法更优。多通道系统因分离质量更高,解耦优势更显著。
(4)LibriCSS结果:使用SSND前端和WRConformer后端(基于WavLM特征),解耦系统得到2.92%的cpWER(连接最小排列WER),优于此前最佳3.22%;若使用松弛边界(250 ms),cpWER可进一步降至2.13%。系统在无监督日记化下仅比理想日记化差0.09% WER,表明后端对日记化误差鲁棒。

讨论与结论:总结表明,解耦说话人分离与识别是一种有效方法,在多个语料库上取得最先进结果。在Libri2Mix上5.1% WER,在1-ch和6-ch SMS-WSJ上分别为7.60%和5.74%,在LibriCSS上2.92% cpWER。进一步分析指出,当声学环境混响和噪声不高,或分离算法足够强大时,解耦方法优于主流噪声语音训练方法。随着分离性能持续提升,解耦方法将在更多声学条件下展现出优势。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号