基于注意力的混合聚合技术的两阶段多实例学习网络在语音情感识别中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computer Speech & Language》：Two-stage multiple instance learning networks with attention-based hybrid aggregation for speech emotion recognition

【字体：大中小】 时间：2026年02月17日 来源：Computer Speech & Language 3.4

编辑推荐：

　　说话人情感识别中采用多实例学习框架解决utterance-level标签不均问题，提出两阶段网络结构：第一阶段通过跨注意力机制编码段级声学特征，第二阶段设计包含自适应聚合、实例选择和注意力融合的混合聚合器，有效整合分段特征并提升情感识别精度。

张世青|陈晨|王丹丹|陶鑫|赵晓明

中国浙江省台州市师府大道1139号，台州大学人工智能学院，318000

摘要

在常见的分类式语音情感识别（SER）任务中，所使用的情感语料库通常提供的是话语级别的真实标签，而非片段级别的标签。然而，这种粗粒度的标注方法基于一个假设，即话语中的情感表达是均匀分布的，这并不适合描述现实场景中人类情感的复杂性。为了解决这个问题，本文提出了一种两阶段多实例学习（MIL）网络，并结合了基于注意力的混合聚合方法用于SER。从MIL的角度来看，一个话语被视为一个“袋子”，并被划分为若干个片段，每个片段被视为一个实例。每个实例经过两个阶段的处理：第一阶段是片段级别的声学特征编码器，第二阶段是基于MIL的混合聚合器。具体来说，在第一阶段，每个划分的片段都会被编码为多级声学特征，然后使用交叉注意力机制进行特征增强和融合。在第二阶段，设计了一种基于MIL的混合聚合器，包括自适应聚合、实例选择和基于注意力的聚合，以获得最终的话语级别结果。该方法在公开的IEMOCAP和MELD数据集上进行了评估，实验结果证明了该方法的有效性。

引言

语音是人类之间情感交流的常见媒介，它隐含地传达了意图、心理状态、情感信息等。在过去的二十年里，语音情感识别（SER）引起了广泛关注。SER的目标是从语音信号中分类说话者的情感状态。SER在多个领域具有巨大潜力，如医疗保健（Paikrao等人，2024年）、客户满意度（Deschamps-Berger等人，2022年）、社交媒体分析（Benrouba和Boudour，2023年）、压力监测（Wang等人，2025a年）等。

特征提取是SER系统的关键步骤。早期研究主要集中在提取韵律特征（能量、音高）、声音质量特征（声道参数、共振峰）以及频谱特征，如梅尔频率倒谱系数（MFCC）、线性预测倒谱系数（LPCC）等（Zhang等人，2024年；Alhussein等人，2025年）。然而，这些早期使用的特征属于手工制作的低级描述符（LLDs），在分类式SER任务中的特征表示能力有限。

近年来，通过深度学习模型获得的深度学习特征（Pouyanfar等人，2018年）显示出比传统手工特征更好的优势。迄今为止，已经采用了各种深度学习模型来学习SER的高级特征，如卷积神经网络（CNN）（Gu等人，2018年）、循环神经网络（RNN）（He等人，2016年）、长短期记忆网络（LSTM）（Hochreiter和Schmidhuber，1997年）等。Zhao等人（2019年）利用1D和2D CNN从原始音频信号和频谱图中进行局部特征学习，然后使用LSTM捕获全局上下文信息以进行情感分类。Zhang等人（2022年）使用多尺度CNN学习片段级别的音频特征，并利用LSTM捕获话语级别的情感识别所需的时间依赖性。此外，研究人员还探索了分层深度模型（Cao等人，2021年；Wang等人，2024年；Shahin等人，2025年）和注意力机制（Vaswani等人，2017年；Nediyanchath等人，2020年；Zhang等人，2023年；Fan等人，2024年；Zhang等人，2024年；Khan等人，2024年）来提取不同层次的高级情感特征用于SER。

尽管上述深度学习特征通常比传统手工特征表现得更好，但这些工作中仍存在一个挑战。那就是，所使用的情感语料库仅提供话语级别的真实标签。这种在话语级别上的粗粒度标注方法基于一个假设，即话语中的情感表达是均匀分布的，并且整个话语对应于相同的情感类别（Shami和Kamel，2005年；Mao等人，2021年；Lian等人，2021年）。然而，这种针对话语中分割片段的粗粒度标注方法并不适合描述现实场景中人类情感的复杂性。由于话语中的情感可能以不同的概率出现，因此语音情感往往是模糊的。这就是所谓的情感表达的时间模糊性（简称情感模糊性）（Neta等人，2017年），从而导致了分类式语音情感识别的问题。

为了解决上述问题，本文引入了多实例学习（MIL）范式，这是一种特殊的弱监督方法。我们提出了两阶段MIL网络，并结合了实例选择和混合聚合方法用于分类式SER，如图1所示。从MIL的角度来看，每个话语被视为一个“袋子”，每个分割的局部片段被视为一个实例。然后，每个实例经过两个阶段的处理：第一阶段是片段级别的声学特征编码器，第二阶段是基于MIL的混合聚合器。通过这两个阶段，有效地聚合了实例级别和伪袋级别预测结果，从而得到最终的话语级别预测结果。在两个公开数据集IEMOCAP（Busso等人，2008年）和MELD（Poria等人，2018年）上的实验结果证明了所提出方法的优势。

总结来说，本文的主要贡献如下：

我们提出了两阶段MIL网络，并结合了基于注意力的混合聚合方法用于SER。该方法提出了一种基于MIL的解决方案，以解决情感模糊性问题。
我们提出了一种基于注意力的聚合策略，整合了Bi-LSTM、自注意力机制和自适应聚合，以获得伪袋级别预测结果。
在两个公开数据集上进行了广泛的实验，实验结果表明该方法在SER任务中的有效性。

提取合适的语音特征是SER系统中的关键步骤。在早期研究中，广泛使用了手工制作的低级描述符（LLDs）进行SER。典型的手工特征包括韵律特征、声音质量特征和频谱特征（Ak?ay和O?uz，2020年）。随后，一些高维统计特征集，如ComParE（Schuller等人，2013b）和eGeMAPS（Eyben等人，2015年），在SER任务中变得流行。然而，这些手工制作的LLDs属于低级特征，因此在分类式SER任务中的表现有限。

问题表述

在MIL范式中，一种常见的方法是将训练样本视为实例，将一组实例视为一个“袋子”，袋子的标签由袋子内的正例实例决定。具体来说，对于二元分类，设一个袋子

b = {(x_{1}, y_{1},, (x_{n}, y_{n})

，其中

x \in x

表示一个实例，

y = c (x_{i}) \in {0, 1

表示实例的分类。袋子标签

Y

可以定义为：

Y

b = (\begin{matrix} 0 \end{matrix}, 如果, i 1, y) = 01

然后，MIL采用适当的转换

数据集

为了验证所提出方法的有效性，实验中使用了两个公开的情感数据集。

IEMOCAP。交互式情感二元动作捕捉（IEMOCAP）（Busso等人，2008年）数据集是一个流行的多模态情感数据库。它包含了十个不同演员在脚本化和即兴场景中的音频和动作捕捉数据。我们使用四种典型的情感类别：愤怒、悲伤、快乐和中性状态进行实验，正如Cao等人所做的那样

结论

考虑到话语中的情感表达并不总是均匀分布的，本文提出了两阶段多实例学习网络，并结合了基于注意力的混合聚合方法用于SER。该方法包含两个关键阶段：第一阶段的片段级别声学特征编码器，第二阶段的基于MIL的混合聚合器。在IEMOCAP和MELD数据集上的结果表明，该方法的有效性优于其他方法

CRediT作者贡献声明

张世青：撰写——审稿与编辑、撰写——原始草稿、监督、方法论、资金获取、形式分析、概念化。陈晨：撰写——原始草稿、可视化、验证、软件、方法论、数据整理。王丹丹：撰写——审稿与编辑、监督、方法论、资金获取。陶鑫：撰写——审稿与编辑、监督、方法论、资金获取。赵晓明：撰写——审稿与编辑、监督、

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了国家自然科学基金（NSFC）（项目编号：62276180、61976149）和浙江省自然科学基金（项目编号：LZ20F020002、LQ21F020002、LQ24F020014）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

问题表述

数据集

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行

新闻专题