通过解耦说话人分离与语音识别提升鲁棒多说话人自动语音识别（ASR）性能

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Speech Communication》：Elevating robust multi-talker ASR by decoupling speaker separation and speech recognition

【字体：大中小】 时间：2026年06月09日 来源：Speech Communication 3

编辑推荐：

　　摘要：尽管深度学习（deep learning）的引入使自动语音识别（ASR）取得了巨大成功，但在许多真实多说话人场景中，其性能仍不令人满意。说话人分离（speaker separation）在分离单个说话人方面表现出色，但作为前端（frontend），它会引

摘要：尽管深度学习（deep learning）的引入使自动语音识别（ASR）取得了巨大成功，但在许多真实多说话人场景中，其性能仍不令人满意。说话人分离（speaker separation）在分离单个说话人方面表现出色，但作为前端（frontend），它会引入处理伪影（processing artifacts），从而降低在干净语音上训练的ASR后端的性能。因此，主流鲁棒ASR系统会在噪声语音上训练后端，以减轻处理伪影。在这项工作中，研究人员提出解耦（decouple）说话人分离前端和ASR后端的训练，并在仅在干净语音上训练后端的条件下评估所提系统。这种解耦系统在Libri2Mix开发/测试集上实现了5.1%的词错误率（WER），显著优于其他多说话人ASR基线。其在单通道和六通道SMS-WSJ上的有效性也通过最先进的7.60%/5.74% WER得到验证。此外，在录制的LibriCSS上，研究人员获得了2.92%的说话人属性WER（speaker-attributed WER）。这些最先进的结果表明，解耦说话人分离与识别是提升鲁棒多说话人ASR性能的有效方法。最后，研究人员提供了对声学条件的见解，在这些条件下，解耦方法有望优于在噪声语音上训练的主流方法。

研究背景：尽管深度学习推动了自动语音识别（ASR）的巨大进步，从高斯混合模型-隐马尔可夫模型（GMM-HMM）发展到深度神经网络-隐马尔可夫混合系统（DNN-HMM）及端到端（E2E）系统，但在混响、背景噪声和说话人重叠等声学干扰下，ASR性能仍不理想。语音分离（speaker separation）技术（如时域或时频域模型）能够有效分离单个说话人，但作为前端会引入处理伪影，导致在干净语音上训练的ASR后端性能下降。主流鲁棒ASR系统通过在噪声/增强语音上训练后端（即“失真容忍”方法）来缓解这一不匹配，但多说话人场景下，直接在重叠语音上训练ASR存在标注数据少、单说话人性能下降等问题。现有研究常见做法包括排列不变训练（PIT）和联合训练，但联合训练会牺牲模块灵活性。因此，研究人员提出解耦（decouple）说话人分离前端与ASR后端训练，后端仅在干净语音上训练，以消除前端输出与后端训练数据之间的不匹配。该研究在《Speech Communication》发表。

研究人员开展的研究：采用TF-CrossNet（时频交叉网络）和SpatialNet（空间网络）作为单/多通道说话人分离前端，SSND（基于神经日记化的说话人分离）用于连续语音；后端使用因子化时延神经网络（TDNN-F）或宽残差Conformer（WRConformer）模型（基于连接时序分类（CTC）和注意力机制）。在Libri2Mix、SMS-WSJ、SMS-WSJ-Large和LibriCSS四个语料库上评估，比较不同后端训练数据（干净语音 vs. 噪声语音）下的词错误率（WER）。主要技术方法：（1）前端模型：TF-CrossNet在时频域采用窄带与跨带模块，利用自注意力机制和时域卷积实现说话人聚类与平滑；SpatialNet通过窄带和跨带块利用空间信息进行多通道复数频谱映射；SSND通过编码器-解码器吸引子模块（MC-EEND）进行日记化，利用非重叠帧的说话人嵌入辅助分离。（2）后端模型：TDNN-F由8层组成，配合WSJ三元语言模型解码；WRConformer使用改进的宽残差卷积神经网络（WRCNN）进行子采样，10个Conformer编码器和6个Transformer解码器，基于WavLM自监督学习（SSL）特征或log-Mel特征。（3）训练策略：前端与后端独立训练，后端只在干净语音上训练，无需联合微调。数据集来源包括LibriSpeech（干净语音）、WHAM!（噪声）和WSJ0/WSJ1，SMS-WSJ-Large由研究人员生成。

研究结果：
（1）Libri2Mix结果：TF-CrossNet前端在开发集上达到14.70 dB的信号失真比（SDR）和14.19 dB的尺度不变信噪比（SI-SNR）。解耦系统（后端在Libri2Mix干净语音上训练）在测试集上取得5.1% WER，相对优于此前最佳结果6.4% WER超过20%。对比结果表明，当使用强分离前端时，后端在干净语音上训练的效果优于在噪声语音上训练。
（2）SMS-WSJ结果：TF-CrossNet在1-ch和6-ch条件均优于所有基线分离模型（SDR和WER指标）。后端在直接路径语音上训练时，1-ch和6-ch测试集WER分别为7.60%和5.74%，优于此前最佳（训练数据量多三倍的噪声语音训练后端）的7.91%和6.70%。匹配训练（在前端分离数据上训练后端）虽可进一步降低WER，但损失模块灵活性。
（3）SMS-WSJ-Large结果：增大前端训练数据（4倍）后，解耦方法在更多声学条件下优于主流方法。1-ch条件下，当T60为0.2–0.5 s且信噪比（SNR）在0–40 dB时解耦方法占优；6-ch条件下，T60为0.2–1.1 s且SNR≥10 dB时解耦方法更优。多通道系统因分离质量更高，解耦优势更显著。
（4）LibriCSS结果：使用SSND前端和WRConformer后端（基于WavLM特征），解耦系统得到2.92%的cpWER（连接最小排列WER），优于此前最佳3.22%；若使用松弛边界（250 ms），cpWER可进一步降至2.13%。系统在无监督日记化下仅比理想日记化差0.09% WER，表明后端对日记化误差鲁棒。

讨论与结论：总结表明，解耦说话人分离与识别是一种有效方法，在多个语料库上取得最先进结果。在Libri2Mix上5.1% WER，在1-ch和6-ch SMS-WSJ上分别为7.60%和5.74%，在LibriCSS上2.92% cpWER。进一步分析指出，当声学环境混响和噪声不高，或分离算法足够强大时，解耦方法优于主流噪声语音训练方法。随着分离性能持续提升，解耦方法将在更多声学条件下展现出优势。

联系信箱：

粤ICP备09063491号

热点排行