PRSE:一种面向轻量级语音增强的两阶段联合优化方法

《Speech Communication》:PRSE: A two-stage joint optimization approach for lightweight speech enhancement

【字体: 时间:2026年06月09日 来源:Speech Communication 3

编辑推荐:

  基于深度学习的语音增强已取得显著进展,但其面临一个关键折衷:更高性能往往伴随着计算复杂度增加,而降低复杂度又倾向于导致增强质量下降。其具体表现为轻量级模型难以平衡非线性失真与噪声抑制,严重阻碍其在资源受限的边缘设备上的部署。为解决该问题,研究人员提出一种遵循“

  
基于深度学习的语音增强已取得显著进展,但其面临一个关键折衷:更高性能往往伴随着计算复杂度增加,而降低复杂度又倾向于导致增强质量下降。其具体表现为轻量级模型难以平衡非线性失真与噪声抑制,严重阻碍其在资源受限的边缘设备上的部署。为解决该问题,研究人员提出一种遵循“先保护后去除”(PRem,Preservation first, Removal later)原则、集成损失函数调优与后处理的两阶段联合优化方法,称为PRSE。具体而言,研究人员首先在轻量级模型中引入NDA(Noise, Distortion, and Artifacts,噪声、失真与伪迹)损失函数,以适度保留噪声并缓解语音失真,同时使残余噪声平稳化。在此基础上,研究人员提出一种低复杂度后处理方法,利用经典噪声估计技术纠正噪声低估问题,同时保持模型对非平稳噪声的跟踪能力。当应用于DCTCLD与LiSenNet两种不同架构时,两个模型的MOS(Mean Opinion Score,平均意见得分)分别提升0.44与0.64,而额外计算开销低于1%。这些结果缩小了与SOTA(State-Of-The-Art,当前最优)模型的性能差距,并验证了方法的通用性,增强了轻量级模型在实际场景中的可行度。
研究背景方面,语音增强(SE,Speech Enhancement)在人类通信与人机交互中具有关键作用。经典SE方法仅能处理平稳噪声且在复杂非平稳环境中存在局限,而深度学习-based SE方法在抑制非平稳与瞬态噪声方面进展显著。但关键折衷依然存在:更高SE性能常伴随计算复杂度增加,多数SOTA模型(如MP-SENet、ZipEnhancer)需要数十至数百GFLOPs,难以部署于 hearing aids(助听器)、smart speakers(智能音箱)等资源受限边缘设备。轻量级SE模型研究主要有两条技术路径:一是对现有模型压缩(剪枝、量化、知识蒸馏),但压缩后计算需求仍偏高;二是借鉴SOTA架构核心组件并采用轻量建模单元(如DCTCLD、LiSenNet等),其计算复杂度比SOTA低2~3个数量级,基本满足边缘应用,但常用评价指标显示轻量级方法与SOTA间存在显著性能差距,且轻量级模型更难平衡非线性失真与噪声抑制,表现为过度抑制语音导致谱不完整与可懂度下降、不连续处理引起韵律波动损害听觉舒适度、噪声消除不完全导致残余噪声降低清晰度,低输入SNR(Signal-to-Noise Ratio,信噪比)下问题更严重。为在不牺牲计算效率的前提下解决这些交织问题,研究人员基于PRem(Preservation first, Removal later,先保护后去除)原则提出两阶段联合优化方法PRSE,将语音失真与噪声抑制难平衡问题解耦:第一阶段在训练中引导模型优先保护语音,第二阶段在第一阶段基础上抑制残余噪声。
本研究发表在《Speech Communication》。研究人员开展的研究是提出PRSE方法并在两种不同架构轻量级SE模型(DCTCLD、LiSenNet)上验证。结论为:PRSE通过NDA损失函数与低复杂度后处理的两阶段协同,显著提升轻量级SE模型的MOS等指标且额外计算开销<1%,缩小了与SOTA的性能差距,具有强通用性与边缘部署可行性。重要意义在于突破了轻量级SE模型中非线性失真与噪声抑制性能间的折衷瓶颈,为边缘设备实用化提供支持。
关键技术方法包括:采用DNS2020数据集(含578 h干净语音、186 h噪声、150对无混响测试对,16 kHz,由组织者脚本生成3000 h训练数据)作为样本队列;第一阶段在训练阶段引入NDA(Noise, Distortion, and Artifacts)损失函数对轻量级SE模型进行多维度约束,适度保留噪声以避免过抑制并使残余噪声平稳,同时降低语音失真、谱包络失真、增强连续性、缓解韵律波动;第二阶段在推理阶段设计低复杂度后处理,融合模型噪声估计结果、经典噪声估计结果及NDA损失函数中的语音保护因子,通过“max-min”策略处理噪声低估与高估,估计SNR并通过经典最优估计器重置增益,实现残余噪声抑制与语音清晰度提升;整体遵循PRem原则实现两阶段协同优化。
研究结果如下:
PRem principle-related research:研究人员指出PRem原则优先保护语音不受损伤并去除非平稳与瞬态噪声,再消除残余噪声,是轻量级SE模型中非线性失真与噪声抑制折衷的潜在解决方案;ICASSP 2023 SSI Challenge冠军方法Gesper是该原则的代表研究。
Speech enhancement model:研究人员介绍了信号模型、声学特征与去噪网络框架,为后续方法提供基础。
Proposed method:研究人员提出基于PRem原则的两阶段联合优化方法PRSE,核心思想为训练阶段通过NDA损失函数引导模型优先保护语音失真同时适度保留部分噪声,推理阶段融合模型信息与低复杂度后处理抑制残余噪声,两阶段具体实现分别于对应小节阐述。
Datasets:研究人员说明使用DNS2020数据集,所有语音以16 kHz采样,通过DNS2020组织者脚本生成3000 h训练数据(含578 h干净语音片段来自2150说话人、186 h噪声片段、150对无混响测试集 noisy-clean语音对),适用于基于模型的SE方法验证。
Conclusion:研究人员总结为解决轻量级SE模型难以平衡非线性失真与噪声抑制的问题,创新性提出基于PREm原则、集成损失函数与后处理的协同优化方法PRSE;该方法先通过NDA损失函数优先保护语音、减少语音失真与感知伪迹并平稳化残余噪声,随后通过模型增益(此处应指model gain)…
CRediT authorship contribution statement:研究人员列明了Haixin Guan(撰写初稿、软件、项目管理、方法论、调研、形式分析、概念化)、Guangyong Wang(可视化、验证、软件、数据整理)、Yanhua Long(撰写—审阅编辑)、Jiaen Liang(撰写—审阅编辑、监督、资源)、Xiaobin Tan(撰写—审阅编辑、监督、形式分析)的贡献。
Declaration of competing interest:研究人员声明无已知竞争性财务利益或个人关系影响本工作。
Acknowledgments:研究人员感谢国家重点研发计划(资助号2023YFF1204102)的资助。
讨论部分总结:研究人员在讨论中指出,轻量级SE模型在非线性失真与噪声抑制间的平衡难题可通过PREm原则下的两阶段解耦有效缓解;第一阶段NDA损失函数在多维度约束下使模型优先保护语音并平稳化残余噪声,第二阶段后处理以极低额外开销(<1%)融合模型与经典噪声估计并利用“max-min”策略纠正噪声估计偏差,再通过SNR估计与最优估计器重置增益实现残余噪声抑制;该方法在DCTCLD与LiSenNet两种不同架构上均带来显著MOS提升(分别+0.44、+0.64),缩小了与SOTA模型MP-SENet的性能差距,且通用性强,适合资源受限边缘设备部署;研究结论部分译为:为解决轻量级SE模型中非线性失真与噪声抑制难以平衡的问题,本文创新性地提出了一种基于PREm原则、集成损失函数与后处理技术的协同优化方法。遵循此原则,该方法首先通过NDA损失函数优先保护语音,减少语音失真与感知伪迹,同时使残余噪声平稳化。随后,模型增益(model gain)…(原文未完结,此处严格按原文结尾浓缩:接着模型增益…原文Conclusion小节末句为“Subsequently, the model gain is”,无后续,故仅总结至此)。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号