MDIPI-Net:基于多维信息感知与交织策略的语音情感识别新方法
《Digital Signal Processing》:MDIPI-Net: Multidimensional Information Perception and Interleaving Strategy for Speech Emotion Recognition
【字体:
大
中
小
】
时间:2025年11月01日
来源:Digital Signal Processing 3
编辑推荐:
本文提出了一种新颖的语音情感识别网络MDIPI-Net,通过多维信息感知模块(MDIP)和跨维度信息交织模块(CDI),有效融合梅尔频率倒谱系数(MFCC)与自监督深度特征(WavLM),解决了情感信息在多时间尺度和频率范围分布的难题。该模型在多个公开数据集上表现出优异的泛化能力,为提升人机交互中的情感计算性能提供了新思路。
近年来,为了降低语音情感识别(SER)任务对大规模精细标注数据的依赖,研究人员积极探索自监督学习(SSL)在该领域的应用,使其成为一个活跃且前景广阔的研究方向。在此背景下,语音处理领域涌现出几种代表性的SSL模型,例如Wav2Vec 2.0、HuBERT和WavLM。这些模型已被证明能在情感识别任务中产生显著的性能提升。
MDIPI-Net的架构如图1所示。该网络以从自监督预训练模型WavLM-Large提取的MFCC和深度特征(WL)作为输入。网络主要由基于扩张卷积的多维信息感知模块(MDIP)和从不同维度特征中捕获互补信息的跨维度信息交织模块(CDI)构成。
本文在三个数据集上进行了实验,以验证所提出方法的有效性:EMO-DB、RAVDESS和IEMOCAP。
柏林情感语音数据库(EMO-DB)是一个为语音情感识别(SER)研究而录制的情感语音数据库。该数据集包含七种情感状态:愤怒、厌倦、厌恶、恐惧、快乐、中立和悲伤。
本研究介绍了MDIPI-Net,一种用于语音情感识别的新颖架构,旨在通过两个关键组件增强情感特征表征:提取多尺度时频模式的MDIP模块,以及促进时间和频谱信息有效融合的CDI模块。通过结合手工特征(MFCC)和深度预训练特征(WavLM),并进一步通过基于SENet的融合策略对其进行优化,该框架旨在...
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号