
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于挤压激励机制的音频嵌入增强模型SaEENet:面向多任务语音识别的轻量化架构创新
【字体: 大 中 小 】 时间:2025年06月17日 来源:Knowledge-Based Systems 7.2
编辑推荐:
针对语音嵌入模型中信息权重分配不均的问题,研究人员提出新型神经网络架构SaEENet,首次将挤压激励(SE)模块引入音频嵌入加权领域,结合1D深度可分离卷积和GRU层,在语言/口音/说话人识别任务中准确率提升0.9%-4.01%,参数量减少31.73%,为犯罪侦查等现实场景提供高效分析工具。
在语音处理领域,预训练模型生成的特征向量(embedding)已成为跨任务迁移学习的核心工具。然而现有技术存在两大瓶颈:一是固定权重处理所有音频片段嵌入,无法区分有效语音与无效噪声;二是复杂模型参数量庞大,制约实际部署效率。这些问题严重限制了语音分析技术在犯罪侦查等关键场景中的应用效果。
欧洲GRACE项目组的研究人员提出突破性解决方案——SaEENet模型。该研究创新性地将计算机视觉领域的挤压激励(Squeeze-and-Excitation, SE)机制引入音频处理,通过动态加权嵌入向量,使模型能自主强化有效语音片段(如犯罪录音中的关键对话)并抑制噪声干扰(如背景杂音)。研究团队采用双分支架构:Wave编码分支处理原始音频波形,MFCC编码分支分析梅尔频率倒谱系数,最终融合形成增强型嵌入。实验证明,该模型在保持WavLM-large预训练优势的基础上,通过1D深度可分离卷积(depthwise separable convolutions)和门控循环单元(GRU)的协同优化,实现精度与效率的双重突破。相关成果发表于《Knowledge-Based Systems》。
关键技术方面,研究团队构建了包含3种SE模块变体的对比体系:通道SE(cSE)、空间SE(sSE)及混合型scSE。使用VoxCeleb等标准数据集,通过5层1D深度可分离卷积提取局部特征,GRU层捕获时序依赖,最终由SE模块完成嵌入权重动态分配。特别值得注意的是MFCC分支采用全可训练参数设计,为模型提供了更灵活的特征学习能力。
【Embeddings generation models】
通过系统对比现有语音嵌入生成模型,研究发现传统方法平等对待所有时间片段的嵌入向量,导致无效信息干扰决策。SaEENet创新性地将SE模块处理维度从图像处理的2D通道转向音频的1D时间序列,开创了嵌入加权新范式。
【SaEENet model architecture】
双分支架构设计显示独特优势:Wave分支继承WavLM-large的预训练知识,MFCC分支通过5层可分离卷积实现轻量化特征提取。消融实验证实,cSE模块对Wave分支、scSE模块对MFCC分支的组合最优,验证了预训练与全可训练组件的差异化需求。
【Results】
在VoxCeleb等数据集上的测试表明,SaEENet以0.71M参数量实现三项任务全面领先:语言识别(提升0.9%)、口音识别(提升1.41%)、说话人识别(提升4.01%)。特别在犯罪录音分析场景,SE模块使模型对关键语音片段的敏感度提升23.6%。
【Discussion】
深度分析揭示scSE模块在MFCC分支的优势源于其空间-通道双重注意力机制,这种设计使模型能同步关注频谱特征与时序定位。而Wave分支采用cSE模块既能保留预训练知识,又通过通道加权优化信息流。
该研究不仅为语音处理领域提供了首个嵌入加权通用框架,其轻量化设计更使得复杂模型在执法机构的边缘设备部署成为可能。GRACE项目的实际应用证实,SaEENet能有效提升调查人员从海量犯罪录音中识别关键证据的效率。未来研究可探索SE机制在多模态犯罪数据分析中的扩展应用,进一步推动AI技术在公共安全领域的落地。
生物通微信公众号
知名企业招聘