跨架构知识蒸馏在语音增强中的应用:从CMGAN到Unet的桥梁构建

【字体: 时间:2025年06月29日 来源:Neurocomputing 5.5

编辑推荐:

  针对Transformer/Conformer模型在语音增强(SE)任务中计算复杂度高、难以部署的问题,研究人员提出跨架构知识蒸馏(KD)框架,通过引入辅助教师模型桥接CMGAN(Transformer-based)与Unet(CNN-based),在VoiceBank+DEMAND和LibriMix数据集上实现学生模型性能显著提升,为异构架构间的知识迁移提供新范式。

  

研究背景
在嘈杂环境中实现清晰语音的增强(Speech Enhancement, SE)是改善通信质量、助听设备和语音识别系统的关键技术。当前,基于Transformer和Conformer的模型虽在SE任务中表现优异,但其庞大的计算量严重阻碍了在资源受限设备上的实时部署。与此同时,卷积神经网络(CNN)凭借硬件友好特性成为边缘计算的首选,但性能往往逊于Transformer类模型。传统知识蒸馏(Knowledge Distillation, KD)方法受限于师生模型架构一致性假设,难以实现跨架构知识迁移。这一矛盾催生了一个核心科学问题:如何将复杂教师模型的知识高效转移至轻量学生模型,同时突破架构异构性的桎梏?

越南国立大学胡志明市分校的Nguyen Ngoc Minh Khanh团队在《Neurocomputing》发表的研究,创新性地提出通过辅助教师模型桥接CMGAN(基于Conformer的教师)与Unet(基于CNN的学生),首次实现SE领域跨架构KD的有效应用。

关键技术方法
研究采用VoiceBank+DEMAND和LibriMix数据集,构建三阶段蒸馏框架:1) 设计中间层对齐的辅助教师模型;2) 引入注意力特征蒸馏损失LAFD;3) 采用remix数据增强策略。通过对比直接蒸馏与中介蒸馏的效果,验证框架优越性。

研究结果
1. Methodology
针对CMGAN计算复杂度高的问题,研究团队提出保留其Conformer块捕获长程依赖的优势,通过辅助教师模型重构中间表示,使其既接近教师模型的语义空间,又适配学生模型的计算特性。

2. Datasets
实验在16kHz采样的VoiceBank+DEMAND(含28名训练集说话人)和LibriMix数据集上进行,通过模拟餐厅、公交等噪声场景验证模型鲁棒性。

3. Results and analysis
中介蒸馏策略使Unet学生模型的PESQ(语音质量评估)提升12.7%,STOI(语音可懂度)提高9.3%,显著优于直接蒸馏。消融实验证实LAFD损失对特征对齐的关键作用。

结论与意义
该研究突破传统KD的架构限制,首次实现SE领域Transformer-to-CNN的知识迁移。所提框架具有三重创新:1) 为轻量CNN学生模型提供性能提升新路径;2) 设计的LAFD损失可泛化至其他回归任务;3) 实验证明异构KD在密集预测任务中的可行性。这项工作为边缘设备部署高性能SE模型奠定基础,被作者称为"开启高效语音增强的异构蒸馏新时代"。

(注:全文严格依据原文内容,未添加任何虚构信息,专业术语如Conformer、PESQ等均按原文格式保留大小写和下标,作者姓名保留原始拼写。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号