PRSE：一种面向轻量级语音增强的两阶段联合优化方法

《Speech Communication》：PRSE: A two-stage joint optimization approach for lightweight speech enhancement

【字体：大中小】 时间：2026年06月09日 来源：Speech Communication 3

编辑推荐：

　　基于深度学习的语音增强已取得显著进展，但其面临一个关键折衷：更高性能往往伴随着计算复杂度增加，而降低复杂度又倾向于导致增强质量下降。其具体表现为轻量级模型难以平衡非线性失真与噪声抑制，严重阻碍其在资源受限的边缘设备上的部署。为解决该问题，研究人员提出一种遵循“

基于深度学习的语音增强已取得显著进展，但其面临一个关键折衷：更高性能往往伴随着计算复杂度增加，而降低复杂度又倾向于导致增强质量下降。其具体表现为轻量级模型难以平衡非线性失真与噪声抑制，严重阻碍其在资源受限的边缘设备上的部署。为解决该问题，研究人员提出一种遵循“先保护后去除”（PRem，Preservation first, Removal later）原则、集成损失函数调优与后处理的两阶段联合优化方法，称为PRSE。具体而言，研究人员首先在轻量级模型中引入NDA（Noise, Distortion, and Artifacts，噪声、失真与伪迹）损失函数，以适度保留噪声并缓解语音失真，同时使残余噪声平稳化。在此基础上，研究人员提出一种低复杂度后处理方法，利用经典噪声估计技术纠正噪声低估问题，同时保持模型对非平稳噪声的跟踪能力。当应用于DCTCLD与LiSenNet两种不同架构时，两个模型的MOS（Mean Opinion Score，平均意见得分）分别提升0.44与0.64，而额外计算开销低于1%。这些结果缩小了与SOTA（State-Of-The-Art，当前最优）模型的性能差距，并验证了方法的通用性，增强了轻量级模型在实际场景中的可行度。

研究背景方面，语音增强（SE，Speech Enhancement）在人类通信与人机交互中具有关键作用。经典SE方法仅能处理平稳噪声且在复杂非平稳环境中存在局限，而深度学习-based SE方法在抑制非平稳与瞬态噪声方面进展显著。但关键折衷依然存在：更高SE性能常伴随计算复杂度增加，多数SOTA模型（如MP-SENet、ZipEnhancer）需要数十至数百GFLOPs，难以部署于 hearing aids（助听器）、smart speakers（智能音箱）等资源受限边缘设备。轻量级SE模型研究主要有两条技术路径：一是对现有模型压缩（剪枝、量化、知识蒸馏），但压缩后计算需求仍偏高；二是借鉴SOTA架构核心组件并采用轻量建模单元（如DCTCLD、LiSenNet等），其计算复杂度比SOTA低2~3个数量级，基本满足边缘应用，但常用评价指标显示轻量级方法与SOTA间存在显著性能差距，且轻量级模型更难平衡非线性失真与噪声抑制，表现为过度抑制语音导致谱不完整与可懂度下降、不连续处理引起韵律波动损害听觉舒适度、噪声消除不完全导致残余噪声降低清晰度，低输入SNR（Signal-to-Noise Ratio，信噪比）下问题更严重。为在不牺牲计算效率的前提下解决这些交织问题，研究人员基于PRem（Preservation first, Removal later，先保护后去除）原则提出两阶段联合优化方法PRSE，将语音失真与噪声抑制难平衡问题解耦：第一阶段在训练中引导模型优先保护语音，第二阶段在第一阶段基础上抑制残余噪声。

本研究发表在《Speech Communication》。研究人员开展的研究是提出PRSE方法并在两种不同架构轻量级SE模型（DCTCLD、LiSenNet）上验证。结论为：PRSE通过NDA损失函数与低复杂度后处理的两阶段协同，显著提升轻量级SE模型的MOS等指标且额外计算开销<1%，缩小了与SOTA的性能差距，具有强通用性与边缘部署可行性。重要意义在于突破了轻量级SE模型中非线性失真与噪声抑制性能间的折衷瓶颈，为边缘设备实用化提供支持。

关键技术方法包括：采用DNS2020数据集（含578 h干净语音、186 h噪声、150对无混响测试对，16 kHz，由组织者脚本生成3000 h训练数据）作为样本队列；第一阶段在训练阶段引入NDA（Noise, Distortion, and Artifacts）损失函数对轻量级SE模型进行多维度约束，适度保留噪声以避免过抑制并使残余噪声平稳，同时降低语音失真、谱包络失真、增强连续性、缓解韵律波动；第二阶段在推理阶段设计低复杂度后处理，融合模型噪声估计结果、经典噪声估计结果及NDA损失函数中的语音保护因子，通过“max-min”策略处理噪声低估与高估，估计SNR并通过经典最优估计器重置增益，实现残余噪声抑制与语音清晰度提升；整体遵循PRem原则实现两阶段协同优化。

研究结果如下：

PRem principle-related research：研究人员指出PRem原则优先保护语音不受损伤并去除非平稳与瞬态噪声，再消除残余噪声，是轻量级SE模型中非线性失真与噪声抑制折衷的潜在解决方案；ICASSP 2023 SSI Challenge冠军方法Gesper是该原则的代表研究。

Speech enhancement model：研究人员介绍了信号模型、声学特征与去噪网络框架，为后续方法提供基础。

Proposed method：研究人员提出基于PRem原则的两阶段联合优化方法PRSE，核心思想为训练阶段通过NDA损失函数引导模型优先保护语音失真同时适度保留部分噪声，推理阶段融合模型信息与低复杂度后处理抑制残余噪声，两阶段具体实现分别于对应小节阐述。

Datasets：研究人员说明使用DNS2020数据集，所有语音以16 kHz采样，通过DNS2020组织者脚本生成3000 h训练数据（含578 h干净语音片段来自2150说话人、186 h噪声片段、150对无混响测试集 noisy-clean语音对），适用于基于模型的SE方法验证。

Conclusion：研究人员总结为解决轻量级SE模型难以平衡非线性失真与噪声抑制的问题，创新性提出基于PREm原则、集成损失函数与后处理的协同优化方法PRSE；该方法先通过NDA损失函数优先保护语音、减少语音失真与感知伪迹并平稳化残余噪声，随后通过模型增益（此处应指model gain）…

CRediT authorship contribution statement：研究人员列明了Haixin Guan（撰写初稿、软件、项目管理、方法论、调研、形式分析、概念化）、Guangyong Wang（可视化、验证、软件、数据整理）、Yanhua Long（撰写—审阅编辑）、Jiaen Liang（撰写—审阅编辑、监督、资源）、Xiaobin Tan（撰写—审阅编辑、监督、形式分析）的贡献。

Declaration of competing interest：研究人员声明无已知竞争性财务利益或个人关系影响本工作。

Acknowledgments：研究人员感谢国家重点研发计划（资助号2023YFF1204102）的资助。

讨论部分总结：研究人员在讨论中指出，轻量级SE模型在非线性失真与噪声抑制间的平衡难题可通过PREm原则下的两阶段解耦有效缓解；第一阶段NDA损失函数在多维度约束下使模型优先保护语音并平稳化残余噪声，第二阶段后处理以极低额外开销（<1%）融合模型与经典噪声估计并利用“max-min”策略纠正噪声估计偏差，再通过SNR估计与最优估计器重置增益实现残余噪声抑制；该方法在DCTCLD与LiSenNet两种不同架构上均带来显著MOS提升（分别+0.44、+0.64），缩小了与SOTA模型MP-SENet的性能差距，且通用性强，适合资源受限边缘设备部署；研究结论部分译为：为解决轻量级SE模型中非线性失真与噪声抑制难以平衡的问题，本文创新性地提出了一种基于PREm原则、集成损失函数与后处理技术的协同优化方法。遵循此原则，该方法首先通过NDA损失函数优先保护语音，减少语音失真与感知伪迹，同时使残余噪声平稳化。随后，模型增益（model gain）…（原文未完结，此处严格按原文结尾浓缩：接着模型增益…原文Conclusion小节末句为“Subsequently, the model gain is”，无后续，故仅总结至此）。

热点排行