基于多阶分数域特征的双路径交互UNET语音增强算法研究

【字体: 时间:2025年06月19日 来源:Speech Communication 2.4

编辑推荐:

  本研究针对开放环境中语音信号易受噪声干扰的关键问题,提出融合多阶分数傅里叶变换(FRFT)特征的双路径UNET模型。通过构建分数域能量差异特征表达、设计语音/噪声并行估计路径及信息交互模块,显著提升语音质量(PESQ提高23%)和可懂度(STOI提升15%),为自动语音识别(ASR)前端处理提供创新解决方案。

  

在嘈杂的会议室、助听设备或智能语音交互场景中,环境噪声如同不请自来的"声音强盗",严重干扰语音信号的清晰度。尽管自动语音识别(ASR)技术已取得长足进步,但现有语音增强(SE)方法仍面临两大困境:传统时频域特征难以捕捉语音信号的动态频率变化特性;单一目标训练的深度学习模型对复杂噪声环境适应性不足。

中国研究人员创新性地将数学物理领域的分数傅里叶变换(FRFT)引入语音处理,发现语音与噪声在特定分数域呈现显著能量分布差异。团队设计的多阶分数特征可同时表征信号频率及其变化速率,通过0.3~0.7阶次分数谱的联合分析,使特征信息量提升40%。更巧妙的是,研究者突破传统UNET的单路径架构,构建了具有"分进合击"特点的双路径网络:上支路专注纯净语音估计,下支路专门捕捉噪声特征,两路径间通过分数信息交互模块实现参数协同优化。实验采用TIMIT语音库与NoiseX-92噪声库构建的混合数据集,结果显示该算法在-5dB信噪比条件下,语音质量评估(PESQ)得分达3.21,较基线模型提升23%。

关键技术包括:1) 多阶FRFT特征提取:通过滑动窗FRFT计算0.3/0.5/0.7阶次分数谱;2) 双路径UNET架构:包含12层编码器-解码器结构,每路径参数量1.2M;3) 残差注意力模块:结合空洞卷积扩大感受野至200ms;4) 跨路径信息交互:采用门控机制控制特征融合比例。

【多阶分数特征分析】
通过FRFT能量分布实验证实,语音信号在0.5阶域能量集中度比噪声高58%,该特征成为算法区分语音与噪声的关键依据。

【双路径网络设计】
消融实验显示,单独使用语音估计路径时残留噪声功率高3.2dB,而双路径联合训练使输出信噪比提升4.7dB。

【信息交互机制】
设计的分数门控单元可动态调节两路径特征融合权重,实验表明该模块使语音失真度降低19%。

这项研究的意义在于:首次将分数域分析深度融入神经网络架构,突破传统时频分析局限;提出的双路径协同机制为复杂环境语音处理提供新范式。论文成果已应用于助听设备芯片设计,在200人规模测试中使听力障碍用户的语音识别准确率提升31%。未来可通过扩展分数阶次选择算法,进一步适应突发性噪声场景。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号