《Speech Communication》:DDSE: Efficient Neural Codec Language Models for speech enhancement with disentangled representations
编辑推荐:
利用语音语言模型(Language Models, LMs)和离散音频令牌已成为语音相关任务的一个有前景的方向。这些模型擅长捕捉语义知识,即使在具有挑战性的噪声环境下也能实现更有效的语音恢复。然而,大多数最先进的方法需要大的模型容量和离线自回归处理来有效建模声
利用语音语言模型(Language Models, LMs)和离散音频令牌已成为语音相关任务的一个有前景的方向。这些模型擅长捕捉语义知识,即使在具有挑战性的噪声环境下也能实现更有效的语音恢复。然而,大多数最先进的方法需要大的模型容量和离线自回归处理来有效建模声学和语义信息,这限制了它们的实际应用。为了解决这些限制,研究人员提出了一种方法,该方法采用解耦音频编码作为输入到一个基于多尺度Transformer(Multi-scale Transformer)的语音语言模型。该方法能够平衡建模声学环境、语音声学和语义。这在消融研究中得到验证:解耦模型显著优于非解耦基线,在UTMOS(东京大学平均意见得分)上实现了24%的提升,词错误率(Word Error Rate, WER)降低了7.3%。此外,研究人员在自回归生成过程中引入了一种延迟模式以实现可流式推理。进一步地,研究人员使用直接偏好优化(Direct Preference Optimization, DPO)对模型进行微调以减轻幻觉,并在测试数据上展示了更低的WER。小版本和大版本模型在DNS-1(深度噪声抑制挑战1)测试集上都达到了与最先进的基于LM的语音增强模型相当的性能。值得注意的是,小模型使用的总参数不到这些领先模型的1/10,这表明在基于LM的语音增强的实际应用方面取得了实质性进展。模型演示可在https://qinwen-hu.github.io/ddse-demo/获取。
**语音增强中的高效解耦编解码语言模型:DDSE研究解读**
### 研究背景与问题
语音增强(Speech Enhancement, SE)旨在从带噪语音中恢复干净语音,在复杂噪声场景下传统方法表现有限。生成式模型,尤其是基于语言模型(Language Models, LMs)的方法,通过捕捉上下文和语义知识展现出巨大潜力。然而,现有最先进的LM-based SE方法面临两个核心挑战:第一,音频数据获取成本高、模态差异大,导致难以平衡语义建模与高保真声学重建;第二,模型参数庞大(常超过5亿),且依赖离线自回归处理,限制了实际部署。此外,音频LM存在“幻觉”问题,可能生成包含错误音素的伪影,即使输入语音可懂度尚可。为克服这些局限,研究人员提出了一种基于解耦表示的高效神经编解码语言模型DDSE,旨在降低模型复杂度的同时提升性能,并实现流式推理与幻觉缓解。该论文发表在《Speech Communication》。
### 主要关键技术方法
(不超过250字)
研究人员围绕DDSE模型构建了三种核心技术:
1. **多分量解耦神经音频编解码器(MDCodec)**:将输入带噪语音编码为三种解耦的量化代码序列——噪声特征、语音语义特征和语音声学特征,为语言模型提供结构化输入。
2. **多尺度残差量化Transformer(RQ-Transformer)**:作为语言模型主干,处理解耦代码并生成清洁语音代码,通过多尺度机制平衡语义与声学信息。
3. **延迟模式自回归生成**:在输入端引入延迟,将噪声提示流与生成语音流分离,支持流式推理并泛化至任意输入长度。
4. **直接偏好优化(DPO)**:基于偏好数据集对模型进行微调,减少幻觉,提升生成语音保真度。
训练数据来源包括LibriSpeech清洁训练集、IMDA语音数据集和联合国图书馆语音语料库(总计约4500小时语音),噪声样本来自SoundIdeas,房间脉冲响应(RIRs)来自OpenSLR26/28(总计约1500小时噪声)。
### 研究结果
#### 消融实验
研究人员在合成的LibriSpeech测试集上评估了不同配置。结果显示,解耦模型(DDSE)在语音质量、说话人相似度和词错误率上全面优于非解耦基线:UTMOS提升24%,说话人嵌入余弦相似度提升27%,WER降低7.3%。这表明解耦表示使模型能更有效地区分噪声、语义和声学属性,从而提升增强效果。
#### 延迟模式效果
与现有SOTA模型普遍采用的“前缀模式”不同,延迟模式将噪声输入和生成语音的条件流分离。实验证明,该模式在保持自回归解码高质量的同时,支持流式推理,并能在训练长度之外(如15秒测试序列)保持性能,展现出强外推能力。
#### DPO微调效果
通过DPO微调,模型在LibriSpeech和VCTK-DEMAND测试集上进一步降低WER约1%。研究人员利用令牌级熵统计分析了幻觉行为:DPO后,模型在处理可懂噪声时产生的错误音素更少,输出更忠实于真实语音分布。
#### 与SOTA模型对比
在DNS-1测试集真实子集和低资源音频编解码(LRAC)挑战真实录音上,DDSE的小模型(参数小于SOTA模型的1/10)和大模型均达到与SOTA LM-based SE模型相当甚至更优的语音质量。例如,DDSE-L(大版本)在DNS-1真实集上取得了与500M参数模型可比的PESQ和STOI分数,而参数量仅为后者1/25。
### 讨论与结论
(总结讨论部分)
研究人员对解耦表示的有效性进行了深入讨论:消融实验证实,分离噪声、语义和声学特征可避免信息混淆,使语言模型能针对性处理不同属性,从而在低参数量下实现高增强性能。延迟模式的设计解决了传统前缀模式需完整输入才能处理的瓶颈,通过输入侧延迟实现流式生成,同时利用Transformer的上下文建模能力,平衡了实时性和质量。DPO训练则通过偏好优化直接修正模型输出分布,减少幻觉(如单词插入或替换),实验表明这显著提升了语音可懂度(WER下降)。综合而言,DDSE在保持高效性的同时,为LM-based SE的实际部署(如移动设备、实时通信)提供了可行方案。
(翻译研究结论部分)
在这项工作中,研究人员提出了一种用于语音增强的解耦编解码语言模型。该方法采用了一种神经编解码模型,在量化嵌入空间中解耦了语音语义、语音声学和噪声分量,为语言模型提供了结构化输入。研究人员证明了这种解耦的有效性,DDSE模型相比非解耦基线在UTMOS上提高了24%,WER降低了7%。此外,研究人员引入了延迟模式自回归生成以实现可流式推理并减少延迟。提出的DPO训练策略有效减轻了幻觉,从而提高了语音质量。最后,该模型在参数显著减少的情况下达到了与SOTA相当的性能,使基于LM的语音增强更加实用。演示可在线获取。