《Speech Communication》:KCAM-SENet: Speech enhancement network with KAN-based channel attention module
编辑推荐:
语音增强旨在有效地从含噪输入中分离并恢复干净的语音信号,其性能对于通信、助听器和语音识别等下游应用至关重要。尽管当前基于深度学习的SE方法在改善整体语音质量方面取得了显著进展,但大多数主流架构优先考虑时频(Time-Frequency, TF)特征的全局优化,
语音增强旨在有效地从含噪输入中分离并恢复干净的语音信号,其性能对于通信、助听器和语音识别等下游应用至关重要。尽管当前基于深度学习的SE方法在改善整体语音质量方面取得了显著进展,但大多数主流架构优先考虑时频(Time-Frequency, TF)特征的全局优化,往往忽略了编码后通道维度特征内在关系的利用。这一限制削弱了模型对细粒度频谱结构(尤其在人耳感知贡献显著的频段)进行建模和重构的能力。为解决此问题,研究人员提出一种基于Kolmogorov-Arnold Network(KAN)的通道注意力模块用于语音增强网络(KCAM-SENet)。该模型采用编码器-解码器主干网络,并集成Transformer模块以捕获长距离依赖。其核心创新在于所提出的基于KAN的通道注意力模块(KCAM)。该模块采用双层通道-空间注意力结构,深度融合通道间交互特征与非线性空间信息。具体而言,在空间注意力分支中,研究人员引入可学习的KAN替代传统的固定激活函数,自适应地生成更精确的注意力图,以突显时频表示中的关键区域。在VoiceBank+DEMAND数据集和DNS Challenge 2020数据集上的实验结果表明,KCAM-SENet在整体指标(如PESQ和CSIG)上优于现有最先进模型。此外,详细的频带分析验证了所提方法在增强高频分量方面的显著优势。消融研究也证实了KCAM内部联合注意力机制和非线性激活设计的有效性。
**基于KAN的通道注意力语音增强网络解读**
**研究背景与问题**
语音增强(Speech Enhancement, SE)旨在从含噪信号中恢复干净语音,提升清晰度与可懂度,是助听器、通信系统和语音识别等下游任务的关键支撑技术。当前基于深度学习的方法在时域和时频(Time-Frequency, TF)域均取得显著进展,但主流架构(如Transformer、LSTM及Mamba)多聚焦于TF特征的整体优化,普遍忽视编码后通道维度特征间的内在关联,尤其缺乏对人耳敏感频段中细粒度频谱结构的自适应建模与恢复能力。这一局限限制了模型对稀疏频谱细节的重构精度,而精确的细粒度频谱恢复对于提升语音自然度与清晰度至关重要。为突破此瓶颈,研究人员提出一种结合Kolmogorov-Arnold网络(KAN)的通道注意力机制,旨在通过增强通道间特征交互与空间非线性建模,提升模型对精细频谱结构的恢复能力。该研究论文发表在《Speech Communication》上。
**研究内容与结论**
研究人员提出KCAM-SENet,一种集成KAN通道注意力模块(KCAM)的语音增强网络。该模型采用编码器-解码器(Encoder-Decoder)主干,并嵌入Transformer模块以捕获长距离时频依赖。其核心创新KCAM基于双层通道-空间注意力(Channel-Spatial Attention, CSA)结构:每一层依次包含通道注意力(Channel Attention, CA)与空间注意力(Spatial Attention, SA),其中空间注意力分支采用可学习的RBF-KAN(径向基函数KAN)替代传统固定激活函数(如Sigmoid、Swish),以自适应地生成更具区分性的注意力图,突显时频表示中的关键空间区域。在VoiceBank+DEMAND数据集和DNS Challenge 2020数据集上的实验表明,KCAM-SENet在PESQ(Perceptual Evaluation of Speech Quality, 语音质量感知评估)和CSIG(语音信号失真平均意见分)等指标上超越现有最先进模型,且频带分析证实其在恢复高频分量方面具有显著优势。消融研究进一步确认了KCAM内联合注意力和非线性激活设计的有效性。
**主要技术方法概述**
研究人员采用以下关键技术:1) 编码器-解码器主干网络,用于时频域特征提取与重建;2) TF-Transformer模块,捕获时频表示中的长距离依赖;3) KCAM模块,由双层通道-空间注意力组成,每层先通过通道注意力整合特征间的通道交互,再通过空间注意力引入空间非线性建模;4) 在空间注意力中,使用RBF-KAN(一种计算高效的KAN变体)作为可学习激活函数,替代传统固定激活函数以生成更精确的空间注意力图。实验数据来源于VoiceBank+DEMAND数据集(平行干净含噪语音对,重采样至16 kHz)和DNS Challenge 2020数据集。
**研究结果**
- **Effect of activation method**:为评估不同激活函数对KCAM性能的影响,研究人员在空间注意力模块中比较了Sigmoid、Swish和RBF-KAN三种激活函数(均采用单层CA+SA结构)。结果表明,RBF-KAN在所有评估指标(PESQ、CSIG、CBAK、COVL等)上均优于Sigmoid和Swish,证实KAN提供的非线性建模能力能有效提升空间注意力图的判别性,进而改善语音增强效果。
- **频带分析**:详细的频带分析验证了所提方法在恢复高频分量方面的显著优势,即KCAM-SENet在高频段(>4 kHz)的频谱重建精度明显优于基线模型,这与人类听觉感知关键区域相契合。
- **消融研究**:通过逐步移除KCAM中的通道注意力层、空间注意力层或RBF-KAN激活,实验确认了每种成分对模型性能均有贡献,其中联合注意力机制和非线性激活设计是提升细粒度频谱恢复的核心因素。
**结论总结与讨论**
研究人员提出一种语音增强模型KCAM-SENet,将KCAM集成到经典编码器-解码器框架中,结合Transformer模块捕获通道特征,显著提升了增强性能。KCAM采用独特的“双混合单”(Dual-Mixed-Single)结构,高效整合通道特征信息,并利用RBF-KAN自动调整对不同空间区域的关注,生成更具区分性的空间注意力图。该研究解决了现有模型缺乏显式通道特征建模的问题,为提升细粒度频谱恢复提供了新途径,在助听器、通信等实际场景中具有重要应用价值。