一种基于稀疏表示的助听系统,采用压缩采集技术和混合字典技术

《Biomedical Signal Processing and Control》:A sparse representation-based hearing aid system using compressed acquisition and hybrid dictionaries

【字体: 时间:2025年11月21日 来源:Biomedical Signal Processing and Control 4.9

编辑推荐:

  端到端稀疏域助听系统通过压缩感知采集、混合字典(DCT与K-SVD学习)编码、稀疏域去噪及直接增益控制实现实时语音增强,在4倍压缩下仍保持高智能和感知质量,优于传统方法。

  随着人们对高质量语音增强的需求不断增长,尤其是在实时和资源受限的环境下,传统的滤波器组方法逐渐显现出其局限性。为了解决这些问题,本文提出了一种端到端的稀疏域助听器系统,该系统通过压缩感知获取信号、稀疏编码、去噪和个性化增益控制等模块,构建了一个统一的处理框架。这一系统不仅在语音质量、可懂度和鲁棒性方面优于传统方法,而且能够在压缩条件下保持较高的可懂度和感知质量,同时满足实时处理的要求。

助听器作为帮助听力障碍者改善语音感知和可懂度的重要辅助设备,其核心功能是放大和增强输入的声音,尤其是语音,同时降低背景噪声。现代助听器需要满足多个关键要求:在嘈杂和动态环境中实现稳健的语音增强、低延迟和实时运行,以及适用于可穿戴设备的节能处理。然而,在实际应用中,尤其是在噪音条件较为复杂的情况下,这些目标往往难以同时实现。

传统助听器系统通常采用滤波器组结构,将输入的音频信号分解为预定义的频率带,然后根据用户的听力配置进行去噪和频率相关的增益调整。这类方法虽然计算复杂度较低,广泛应用于商业设备中,但存在明显的不足。例如,它们常常对噪声进行无差别压制,从而可能导致语音成分也被削弱,特别是在信噪比(SNR)较低的情况下,这种做法会显著降低语音的可懂度。此外,传统方法还容易引入听觉伪影,如音乐噪声,这是一种感知上具有干扰性的残余音调,影响用户的听觉舒适度。同时,由于没有充分利用语音的结构特性,这些方法在语音增强效果上存在局限。此外,它们在应用听觉增益时可能会导致相位失真,限制了个性化处理的灵活性。

近年来,稀疏表示作为一种强大的信号建模和处理范式,逐渐在助听器领域展现出巨大的潜力。在稀疏表示框架下,信号可以被表示为从一个过完备字典中选取的少量原子的线性组合。这种表示方式不仅能够有效捕捉语音信号的结构特征,还能够在压缩感知(CS)的支持下,实现低于奈奎斯特速率的信号采集。通过这种方式,信号可以在较少的线性测量中被准确重建,这对于资源受限的可穿戴设备来说具有重要意义。尤其是在助听器中,这种低数据率和低功耗的特性可以显著提升设备的续航能力和性能表现。

稀疏表示方法在语音去噪、增强和源分离方面的应用表明,它能够有效利用语音信号的结构化稀疏性,从而实现更高质量的语音处理。与传统的固定基或短时分析(如短时傅里叶变换,STFT)方法相比,稀疏表示方法能够自适应地选择最符合信号结构的字典原子,提供更加灵活和精确的信号表示。这种自适应性不仅有助于提高去噪效果,还能增强语音的可懂度和整体质量。这是因为噪声通常缺乏语音那样的结构化稀疏性,因此在为语音信号设计的字典中,噪声的表示会相对较差,从而被更有效地抑制。

对于助听器而言,稀疏表示框架提供了多个显著的优势。首先,它允许在传感器层面使用随机投影进行压缩采集,从而减少数据率和前端功耗。这对于电池供电的小型助听器设备来说至关重要,因为它们通常受限于有限的能源和存储空间。其次,使用学习或混合字典可以实现高保真度的信号建模,充分利用语音的结构特性,从而在复杂噪声环境下实现更有效的噪声分离和伪影减少。然而,现有的基于稀疏表示的系统大多专注于单一任务,如去噪,且通常难以满足实时处理的需求。此外,许多方法仅依赖于学习字典,虽然具有一定的自适应能力,但它们可能缺乏泛化能力,并且需要大量的训练数据。同时,稀疏域中的增益应用,对于助听器个性化处理而言,仍然是一个未被充分研究的领域。

本文提出的系统克服了这些挑战,构建了一个完整的端到端稀疏域助听器框架。该系统将信号采集、编码、增强和增益控制等所有核心处理模块整合在稀疏域中,随后通过稀疏表示进行语音重建。这种设计不仅提高了系统的整体性能,还确保了在严格的硬件约束下,仍能实现高质量的语音处理。此外,该系统能够在压缩条件下保持良好的可懂度和感知质量,这对于资源受限的环境尤为重要。

在具体实现上,系统采用了多种关键技术和策略。首先,它使用了基于压缩感知的信号采集方法,使得信号能够在压缩因子高达4倍的情况下,仍然保持较高的感知质量。这一特性对于助听器的低功耗和低数据率要求至关重要。其次,系统引入了一种混合字典设计,结合了固定离散余弦变换(DCT)原子和通过改进的K-SVD算法训练的原子。这种混合设计既保留了DCT基的泛化能力,又通过学习原子增强了对语音结构的适应性,从而提升了语音建模和恢复的鲁棒性。此外,系统在稀疏域中直接进行去噪处理,充分利用了稀疏表示的结构特性,实现了高效的噪声抑制。在增益控制方面,系统采用稀疏域中的增益映射方法,将听觉配置直接应用于字典原子,从而实现了个性化的信号增强,而无需依赖传统的滤波器组结构。这一方法不仅减少了计算复杂度,还避免了由滤波器组结构引入的相位失真和伪影问题。

为了确保系统的实时性,所有处理步骤均在每帧数据上完成,并且处理延迟控制在2.5毫秒以内。这一延迟水平满足了现代助听器的实时处理需求,确保了用户在使用过程中不会感受到明显的延迟,从而提升了整体的使用体验。同时,系统在低功耗环境下运行,使得其适用于电池供电的可穿戴设备。

实验结果表明,该系统在多个关键指标上均优于传统滤波器组方法和现有的稀疏域基准。无论是在不同的信噪比条件下,还是在不同的压缩设置下,系统都能保持较高的语音可懂度和感知质量。特别是在4倍压缩的情况下,系统依然能够实现接近理想的助听器系统性能指标(HASPI)和强大的助听器质量指标(HASQI),这表明其在资源受限环境下的有效性。此外,该系统在处理时间、计算复杂度和能耗方面也表现出色,为下一代助听器系统的开发提供了可行的技术方案。

本文的主要贡献可以归纳为以下几点:首先,提出了一种完整的端到端稀疏域助听器系统,将压缩感知、稀疏编码、去噪和增益控制等关键模块整合在一个统一的实时处理框架中,系统能够在4倍压缩下仍保持较高的语音质量和可懂度,并且处理延迟低于2.5毫秒/帧。其次,设计了一种混合字典,结合了固定DCT原子和通过改进的K-SVD算法训练的原子,以实现对不同说话人和语音变化的适应性,同时保持良好的泛化能力。最后,引入了稀疏域增益映射方法,使得听觉配置可以直接应用于字典原子,从而实现个性化的信号增强,而无需依赖传统的滤波器组结构。

本文的结构安排如下:第二部分回顾了与稀疏表示和助听器信号处理相关的现有工作,第三部分详细介绍了所提出的系统架构及其核心组件,第四部分展示了实验设置、性能指标和系统评估结果,第五部分总结了本文的研究成果,并提出了未来的研究方向。通过这些内容,本文不仅为助听器系统的设计提供了新的思路,还为相关领域的进一步研究奠定了基础。

在实际应用中,该系统可以显著提升助听器的性能和用户体验。首先,其低延迟和高实时性确保了用户在嘈杂环境中的听觉体验不会受到明显干扰。其次,系统在压缩条件下的良好表现使得其适用于资源受限的设备,从而降低了功耗和硬件成本。此外,个性化增益控制的实现使得助听器能够更好地适应不同用户的听力需求,提高其适用性和用户满意度。这些优势使得该系统在实际部署中具有较高的可行性。

总的来说,本文提出的端到端稀疏域助听器系统代表了助听器技术的一个重要进步。通过整合压缩感知、稀疏编码、去噪和增益控制等关键技术,该系统不仅克服了传统方法的诸多不足,还满足了现代助听器在实时性、低功耗和个性化处理方面的需求。这一研究为未来助听器的发展提供了新的技术路径,并有望在实际应用中发挥重要作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号