基于仿射调制的听力图融合网络:联合降噪与听力损失补偿的创新研究

【字体: 时间:2025年09月15日 来源:TRENDS IN FOOD SCIENCE & TECHNOLOGY 15.4

编辑推荐:

  本文提出AFN-HearNet模型,通过融合听力图(audiogram)与频谱特征,在统一架构中实现噪声抑制(NR)与听力损失补偿(HLC)的联合优化。该模型采用仿射调制机制(affine modulation)和语音活动检测(VAD)辅助任务,显著提升语音质量评估(PESQ)和听力辅助语音质量指数(HASQI),为个性化语音增强(PSE)提供了系统化解决方案。

  

Highlight

  • 我们提出一种新颖的听力图专用编码器,利用线性插值策略将稀疏的听力图测量值扩展为密集表示。这种基于插值的对齐方法产生生理学上合理的特征表示,从而实现与语音频谱更有效的整合。

  • 我们提出基于仿射调制的听力图融合频时Conformer(AMFT-Conformer),将听力图信息作为条件辅助输入来调制带噪语音频谱,从而实现跨模态自适应融合,将个体化听力特征注入频谱表示的频域和时域维度。

  • 我们引入语音活动检测(VAD)辅助任务,隐式驱动AMFT-Conformer学习语音活动信息,使AFN-HearNet能够识别并聚焦于包含语音的片段。

  • 我们在多个数据集上进行全面实验,验证每个提出模块的有效性。结果表明,AFN-HearNet在关键指标如HASQI和PESQ上显著优于当前最先进的上下文融合联合模型。

问题描述

考虑一个采用串联配置的助听器(如图1(a)所示),其中先进行噪声抑制(NR),后进行听力损失补偿(HLC)。设纯净语音为s(n),环境噪声为e(n),则麦克风接收信号y(n)=s(n)+e(n)在频域中通过短时傅里叶变换(STFT)可表示为:

Y(l,k)=S(l,k)+E(l,k),

其中l和k分别表示帧和频率仓的索引。在助听系统中,通常引入前端NR算法以...

概述

所提出的听力图融合个性化语音增强(PSE)网络可表示为一个映射函数,以失真的带噪波形Y∈RL×1和听力损失听力图HL∈R1×N作为输入,输出单通道去噪和补偿后的波形X?∈RL×1,记为F:(Y,HL)?X?。AFN-HearNet的架构如图3所示,包含四个关键组成部分:(1) 双编码器结构,集成频谱编码器以捕获基本特征并降低维度...

数据集

为进行实验,我们使用了基于广泛使用的公共数据集合成的两个数据集:一个基于DNS挑战赛[56],另一个基于LibriSpeech[57]+Demand[58]数据集。DNS挑战赛1数据集包含来自2150名说话者的500小时纯净语音和180小时噪声。LibriSpeech2语料库包含约1000小时的英文朗读语音,我们利用其中的纯净语音...

结果与分析

本节详细分析和讨论实验结果。

结论

本文提出了一种名为AFN-HearNet的新型联合模型,可提供根据个人听力能力定制的个性化语音增强(PSE)。通过融合频谱和听力损失听力图的跨域特征,AFN-HearNet同时处理噪声抑制(NR)和听力损失补偿(HLC)任务,有效解决这两个任务之间的相互作用,并实现系统优化。我们提出了一种听力图专用编码器,将稀疏的听力图特征转换为个性化深度表示...

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号