MDIPI-Net:基于多维信息感知与交织策略的语音情感识别新方法

《Digital Signal Processing》:MDIPI-Net: Multidimensional Information Perception and Interleaving Strategy for Speech Emotion Recognition

【字体: 时间:2025年11月01日 来源:Digital Signal Processing 3

编辑推荐:

  本文提出了一种新颖的语音情感识别网络MDIPI-Net,通过多维信息感知模块(MDIP)和跨维度信息交织模块(CDI),有效融合梅尔频率倒谱系数(MFCC)与自监督深度特征(WavLM),解决了情感信息在多时间尺度和频率范围分布的难题。该模型在多个公开数据集上表现出优异的泛化能力,为提升人机交互中的情感计算性能提供了新思路。

  
Highlight
自监督学习
近年来,为了降低语音情感识别(SER)任务对大规模精细标注数据的依赖,研究人员积极探索自监督学习(SSL)在该领域的应用,使其成为一个活跃且前景广阔的研究方向。在此背景下,语音处理领域涌现出几种代表性的SSL模型,例如Wav2Vec 2.0、HuBERT和WavLM。这些模型已被证明能在情感识别任务中产生显著的性能提升。
框架概述
MDIPI-Net的架构如图1所示。该网络以从自监督预训练模型WavLM-Large提取的MFCC和深度特征(WL)作为输入。网络主要由基于扩张卷积的多维信息感知模块(MDIP)和从不同维度特征中捕获互补信息的跨维度信息交织模块(CDI)构成。
首先,输入的音频信号被送入特征提取模块。
数据集
本文在三个数据集上进行了实验,以验证所提出方法的有效性:EMO-DB、RAVDESS和IEMOCAP。
柏林情感语音数据库(EMO-DB)是一个为语音情感识别(SER)研究而录制的情感语音数据库。该数据集包含七种情感状态:愤怒、厌倦、厌恶、恐惧、快乐、中立和悲伤。
结论
本研究介绍了MDIPI-Net,一种用于语音情感识别的新颖架构,旨在通过两个关键组件增强情感特征表征:提取多尺度时频模式的MDIP模块,以及促进时间和频谱信息有效融合的CDI模块。通过结合手工特征(MFCC)和深度预训练特征(WavLM),并进一步通过基于SENet的融合策略对其进行优化,该框架旨在...
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号