一项基于扩散技术的通用语音恢复实验研究，采用预测引导式条件训练方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computer Speech & Language》：An experimental study of diffusion-based general speech restoration with predictive-guided conditioning

【字体：大中小】 时间：2026年02月09日 来源：Computer Speech & Language 3.4

编辑推荐：

　　提出一种融合预测引导的扩散模型，通过整合预测模型的任务感知修正与扩散模型的生成能力，有效解决噪声、混响及带宽限制的复合失真语音恢复问题，在多指标评估中展现出优于传统扩散基线的性能，并揭示主客观质量之间的权衡关系。

作者：Da-Hee Yang | Joon-Hyuk Chang

韩国汉阳大学电子工程系，首尔，04763

摘要

本研究提出了一个混合语音恢复框架，该框架将基于预测的引导条件化集成到基于扩散的生成模型中，以解决包括噪声、混响和带宽减少在内的复杂失真问题。所提出的方法利用预测模型的输出来指导扩散过程，从而在具有挑战性的声学条件下实现更准确的重建。此外，在最终采样阶段，预测模型和生成模型的输出以可调的比例融合，以平衡信号保真度和感知自然度。实验结果表明，与传统的基于扩散的方法相比，所提出的方法显著提高了客观恢复指标。然而，感知质量会随着融合比例的不同而变化，这揭示了客观收益与主观偏好之间的权衡。这些发现突显了基于预测的引导条件化在鲁棒语音恢复方面的潜力，并为优化预测和生成贡献之间的平衡提供了见解。

引言

现实世界环境中的语音信号经常受到多种退化因素的干扰，包括加性噪声、混响和带宽限制（Hao等人，2025年；Wang等人，2025年）。这些失真在时频域中以难以区分的方式结合在一起，尤其是在它们同时发生时（Liu等人，2022年；Serrà等人，2022年）。传统的判别式语音增强方法通过学习失真语音表示与清晰语音表示之间的显式映射，在去噪或去混响任务中表现出强大的性能（Defossez等人，2020年；Xu等人，2014年；Zhao等人，2020年）。然而，这些方法倾向于过度拟合于特定的失真模式，并且在遇到不熟悉或复合失真时难以泛化。此外，它们从根本上受到监督回归范式的限制，无法完全恢复在传输过程中严重丢失或被掩盖的语音成分。

最近在生成建模方面的进展，特别是基于分数的扩散模型（Song和Ermon，2019年；Song等人，2021年），改变了语音恢复的格局。扩散模型（Song和Ermon，2019年；Song等人，2021年；Sohl-Dickstein等人，2015年；Ho等人，2020年）通过迭代细化逐渐将高斯噪声转换为清晰语音信号来学习底层数据分布。这种生成机制使模型能够幻觉出合理的细粒度信息并重建缺失的高频成分，为判别式估计器提供了强有力的替代方案。诸如SGMSE（Welker等人，2022年；Richter等人，2023年）之类的模型已经证明，即使在恶劣的噪声条件下，基于扩散的推理也能产生感知上丰富的声学结构。尽管取得了这些进展，但在应用于一般语音恢复时，生成方法仍面临三个关键挑战。首先，生成推理计算密集，需要多步采样来逐步减少随机性，这限制了其实际应用。其次，扩散模型可能缺乏强调特定任务特征的显式机制（例如，去混响线索、谐波结构恢复），这在处理多样或复合失真时可能导致性能不佳。第三，由于其完全生成的本质，扩散模型在最大化似然目标时可能会引入感知伪影，从而导致客观质量指标与主观质量指标之间的脱节（Yang和Chang，2024年；Yang和Chang，2025年；Wang等人，2024年；Yang等人，2025年）。

为了解决这些挑战，先前的研究探索了使用辅助网络对扩散模型进行条件化，包括判别特征、语义先验或语音嵌入（Serrà等人，2022年；Shi等人，2024年；Scheibler等人，2024年；Trachu等人，2024年；Li等人，2024年）。然而，许多现有的引导方法仅在扩散轨迹的特定阶段注入条件，或者需要同时优化判别模型和生成模型，这可能限制了它们在复杂恢复场景中的灵活性。在这种设计中，判别模型的影响通常集中在早期采样步骤，降低了其在生成结束时纠正残余伪影的能力。此外，大多数条件化策略在如何将预测信息与扩散动态结合以最大化恢复保真度方面提供了有限的理论见解。

本研究提出了一个混合扩散框架，在推理过程中统一了生成（Richter等人，2023年）和预测（Yang等人，2024a）范式。我们没有仅仅通过条件化特征来指导扩散过程（Kim等人，2024年），而是在最终采样步骤引入了一个预测引导的校正器，该校正器将判别模型估计的清晰表示与扩散模型的分数估计相结合。这种后期融合策略利用了两种模型的互补优势：生成模型从学习到的语音先验中重建合理的细粒度结构，而预测模型提供了来自显式信号分解的任务感知恢复线索。关键在于，预测模型在扩散过程中随机不确定性最小化的点上起到校正作用，从而提高了频谱保真度，而不会显著增加采样步骤。

从理论角度来看，我们的方法与将扩散采样解释为迭代后验细化的观点一致（Song等人，2023年）。判别模型可以被视为提供近似的后验均值估计，而扩散模型提供了对数密度的梯度（分数函数）。它们的加权组合形成了一个混合估计器，平衡了感知质量和信号准确性。我们进一步分析了客观恢复指标（Recommendation，ITU-T，2001年；Hu和Loizou，2008年）和感知自然度（Mittag等人，2021年）之间的权衡，表明融合权重在控制这种平衡中起着关键作用。更多地依赖预测估计可以通过减少伪影来提高PESQ和SRMR，而更强调生成推理则会以牺牲主观质量为代价来增强高频重建。我们的实验结果表明，存在一个最佳融合参数，可以在两种指标类型上都最大化整体性能。

本文的主要贡献总结如下：

1.
一个统一的基于预测的引导扩散框架，其中判别模型在训练期间提供条件化特征，并且在采样期间将其恢复估计与生成输出明确融合，提供了客观增强和感知质量之间的可控平衡。
2.
一种理论上有根据的融合策略，表明将基于分数的生成与判别估计相结合可以解释为后验均值细化，为基于扩散的语音恢复提供了更深入的见解。
3.
在多失真设置下的全面评估，涵盖了噪声、混响和带宽退化，同时突出了在不同融合权重和采样步骤下的性能行为。
4.
实验验证表明，我们的方法在现实条件下始终优于强大的生成基线，在客观（PESQ、CBAK、SRMR）和主观（NISQA-MOS）指标上表现优异。

本文的其余部分组织如下。第2节回顾了关于判别式和生成式语音恢复的相关工作。第3节提供了基于分数的扩散模型的背景信息。第4节介绍了所提出的混合扩散框架，并为后期融合建立了理论依据。第5节描述了实验设置和多失真数据集。第6节展示了定量和定性结果，并讨论了观察到的权衡。第7节总结了本文并概述了提高混合生成系统感知稳定性的未来方向。

章节片段

判别式语音恢复

判别式语音恢复模型通过监督学习直接从失真观测中估计清晰语音表示（Byun等人，2023年；Kim等人，2023年）。早期的方法依赖于使用DNN和时间卷积网络（Xu等人，2014年；Park和Lee，2017年；Luo和Mesgarani，2019年）来抑制加性噪声。后来的架构，如U-Net变体、基于LSTM的模型和卷积循环网络（CRNs），展示了改进

背景：基于分数的扩散模型

基于分数的扩散模型（Song等人，2021年）是一类能够有效捕获复杂数据分布的生成模型，使它们特别适用于语音增强（Welker等人，2022年；Richter等人，2023年）、超分辨率（Lemercier等人，2023a）和语音合成（Popov等人，2021年）等语音任务。该模型通过逐步添加然后去除噪声来工作，从而从噪声输入中恢复清晰数据。这个过程包括三个主要

建模方法

本节介绍了所提出的基于混合扩散的语音恢复框架，旨在解决包括噪声、混响和带宽减少在内的多种现实世界失真问题。关键思想是以原则性方式将判别式预测模型与基于分数的扩散模型集成，从而使系统能够同时实现特定任务的准确性和感知自然度。

数据集

我们模拟了三种类型的失真——加性噪声、混响和带宽限制——在16 kHz采样率下评估了在真实多失真条件下的恢复性能。对于噪声失真，我们遵循了Valentini-Botinhao等人（2017年）提出的基于VCTK的噪声语音设置。清晰语料库包含30名说话者（28名用于训练，2名用于测试）。噪声训练混合使用40种噪声条件（DEMAND + 人工噪声）在SNR为0、5、10的情况下生成

定量结果

表1报告了所有评估模型在多失真条件下的客观和感知性能。生成基线（SGMSE+）在大多数指标上取得了合理的恢复性能，而预训练的预测模型（DM）在PESQ和CSIG等几个客观指标上获得了更高的分数，但根据NISQA测量的感知质量较低。

在扩散训练期间应用基于预测的引导条件化的混合模型（SGMSE+DM without

结论

在这项工作中，我们提出了一个基于混合扩散的恢复框架，该框架通过基于预测的引导条件化和后期融合细化将生成语音模型与判别式预测估计器集成在一起。在多失真条件下的实验表明，条件化提高了客观和感知分数，而融合步骤进一步增强了客观保真度，尽管略微降低了感知质量，揭示了一个可控的权衡

CRediT作者贡献声明

Da-Hee Yang：撰写——原始草稿、软件、方法论、形式分析、数据整理、概念化。Joon-Hyuk Chang：撰写——审阅与编辑。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

这项工作部分得到了韩国国家研究基金会（NRF）的资助，该基金会由韩国政府（MSIT）资助（RS-2025-00557944）以及信息与通信技术规划与评估研究所（IITP）在AI半导体支持计划下的资助（2025-RS-2023-00253914），该计划由韩国政府（MSIT）资助。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号