基于原型引导的对比训练的多模态情感识别图谱原型蒸馏方法在对话中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：Graph-Prototype Distillation with Prototype-Guided Contrastive Training for Multimodal Emotion Recognition in Conversations

【字体：大中小】 时间：2026年02月06日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　多模态对话情感识别中模态冲突与跨回合语境变化问题，提出图原型蒸馏与原型引导动量对比联合框架，通过统一图聚合表征约束分布一致性、原型对齐与表征对齐，并采用动量编码与置信加权稳定训练，显著提升IEMOCAP、MELD及CMU-MOSEI数据集上的性能与鲁棒性。

合肥工业大学管理学院，中国安徽省合肥市屯溪路230009

摘要

“对话中的多模态情感识别”旨在在异构的文本、音频和视觉信号交织以及对话上下文在轮次间演变的情况下，稳健地确定话语级的情感。尽管基于图的方法已经取得了一些进展，但在模态冲突与轮次间上下文变化共存时，决策校准、几何对齐和类别级组织往往被孤立地建模。这促进了信息扩散和结构冗余，从而阻碍了难以区分的情感的分离性和整体鲁棒性。为了解决这些问题，我们引入了基于图的原型蒸馏（Graph-Prototype Distillation，简称GPGC），该方法在统一的模内图聚合表示上同时约束了表示对齐、分布一致性和原型对齐，从而从概率和几何两个角度缩小了类别内分散，并稳定了类别-原型方向。此外，我们还采用了原型引导的动量对比（Prototype-Guided Momentum Contrast）来利用跨批量稳定的字典和引导的正样本，以在优化过程中一致地扩大对难负样本的边界，同时减少噪声样本的干扰。在两个广泛使用的MERC基准测试和一个真实场景的多模态情感基准测试中对系统进行了系统评估，结果显示在整体性能和稳定性方面都取得了持续的改进。

引言

“对话中的多模态情感识别”（Multimodal Emotion Recognition in Conversations，简称MERC）旨在通过结合文本、音频和视觉模态来识别对话中每个话语的情感状态。MERC在诸如共情对话代理、自适应辅导系统、人工智能辅助咨询和社会机器人等应用中发挥着关键作用。在这些场景中，情感感知提升了交互质量和用户满意度，最近的研究强调了其在以人为中心的AI和交互系统中的核心重要性[1]、[2]、[3]、[4]。

在多模态对话环境中，文本语义、音频线索和视觉表达通常异步地传递情感信息。如图1a所示，MELD训练集中的一个完整对话实例包括说话者视频帧、相应的话语文本和音频语音记录，以及每个句子的真实情感标签。与情感相关的证据分布在时间和模态两个维度上，因此情感识别必须总结多轮过程中的多模态线索。在这种背景下，模态之间存在固有的异质性和互补性。图1b显示，同一话语在不同模态中可能表现出不一致的情感表达。现有研究通过共享表示和上下文建模来研究轮次级和说话者级动态，从而改善了对话级情感跟踪[5]、[6]。基于图的结构化关系聚合引入了对话拓扑和邻域传播，以捕捉话语依赖性并支持跨模态交互[7]、[8]。对齐和蒸馏约束在决策或表示空间中强制一致性，并减少了融合中的模态偏差[9]、[10]。对比判别学习通过样本级目标扩大了类别边界，并增强了细粒度的分离性[11]、[12]。

在复杂的对话中，模态冲突和相近的类别边界同时存在。因此，必须在相同的训练过程中实现跨模态一致性和情感分离性。当一致性约束作用于不同的表示变量时，后验校准和几何对齐无法在同一图过滤后的输出上同步优化，这在证据冲突的情况下会削弱收敛稳定性[9]、[13]。当通过辅助分支引入类别锚点并且这些锚点仅与图过滤后的变量弱相关时，类别内收缩和类别间分离没有与邻域选择一致的梯度驱动因素[8]、[14]。此外，批量内的负样本会随着批量组成和长尾频率的变化而变化，使得类别间排斥不稳定[11]、[15]。基于队列的动量字典稳定了负样本并提高了覆盖率，而类别锚点和置信度加权有助于在噪声和不平衡情况下保持边界更新的稳定性[12]、[16]。

为了解决这些问题，我们提出了GPGC，这是一个用于对话中多模态情感识别的图蒸馏和原型引导的对比训练框架。GPGC包括两个核心组件：图原型蒸馏（Graph-Prototype Distillation，简称GPD）和原型引导的动量对比（Prototype-Guided Momentum Contrast，简称PGMC）。GPD构建了半融合的节点特征，并学习了一个稀疏的对话内图。分布一致性、表示对齐和原型对齐在同一图过滤后的输出上定义。因此，后验一致性、几何收缩和类别方向在单一的载体表示上得到优化。这些梯度作用于原始模态特征的投影层和图参数，从而将模态特定的漂移向类别-原型方向收缩，并提高跨模态决策的一致性。PGMC使用模内上下文表示作为对比输入，结合动量编码和跨批量队列。原型引导的正样本增强了类别内的持续吸引力和类别间的排斥力，减少了类别内方差并扩大了类别间边界。来自动量后验的置信度加权抑制了低置信度梯度，并在噪声和不平衡情况下稳定了边界更新。GPD和PGMC共同优化，它们的更新通过用于图构建和对比学习的共享主干表示耦合在一起。

主要贡献可以总结如下：

•
我们设计了图原型蒸馏（Graph-Prototype Distillation，简称GPD），它使用Gumbel-Sigmoid学习节点连接，并在对话中聚合高置信度的邻域特征。在低维投影空间中，我们对比图聚合的表示，使用可学习的类别原型约束跨模态类别分布，从而提高跨模态一致性和区分性。
•
我们提出了一种原型引导的动量对比训练策略，该策略将每种模态的查询与其动量键和类别原型之间的球形插值构建的引导正样本对齐。负样本由相同模态的动量队列提供。我们还在损失函数中应用了基于后验熵的置信度加权，从而扩大了类别间边界并在噪声和不平衡条件下增强了训练稳定性。
•
我们在IEMOCAP、MELD和CMU-MOSEI上进行了广泛的实验。我们的模型在多个指标上优于现有最先进的方法，消融研究验证了每个提出模块的个别贡献和有效性。

部分摘录

对话中的多模态情感识别

“对话中的多模态情感识别”（Multimodal Emotion Recognition in Conversations，简称MERC）通过结合文本、音频和视觉模态来识别对话中每个话语的情感状态。MERC在诸如共情对话代理、自适应辅导系统、人工智能辅助咨询和社会机器人等应用中发挥着关键作用。在这些场景中，情感感知提升了交互质量和用户满意度，最近的研究强调了其在以人为中心的AI和交互系统中的核心重要性[1]、[2]、[3]、[4]。

在多模态对话环境中，文本语义、音频线索和视觉表达通常异步地传递情感信息。如图1a所示，MELD训练集中的一个完整对话实例包括说话者视频帧、相应的话语文本和音频语音记录，以及每个句子的真实情感标签。与情感相关的证据分布在时间和模态两个维度上，因此情感识别必须总结多轮过程中的多模态线索。在这种背景下，模态之间存在固有的异质性和互补性。图1b显示，同一话语在不同模态中可能表现出不一致的情感表达。现有研究通过共享表示和上下文建模来研究轮次级和说话者级动态，从而改善了对话级情感跟踪[5]、[6]。基于图的结构化关系聚合引入了对话拓扑和邻域传播，以捕捉话语依赖性并支持跨模态交互[7]、[8]。对齐和蒸馏约束在决策或表示空间中强制一致性，并减少了融合中的模态偏差[9]、[10]。对比判别学习通过样本级目标扩大了类别边界，并增强了细粒度的分离性[11]、[12]。

在复杂的对话中，模态冲突和相近的类别边界同时发生。因此，必须在相同的训练过程中实现跨模态一致性和情感分离性。当一致性约束作用于不同的表示变量时，后验校准和几何对齐无法在同一图过滤后的输出上同步优化，这在证据冲突的情况下会削弱收敛稳定性[9]、[13]。当通过辅助分支引入类别锚点并且这些锚点仅与图过滤后的变量弱相关时，类别内收缩和类别间分离没有与邻域选择一致的梯度驱动因素[8]、[14]。此外，批量内的负样本会随着批量组成和长尾频率的变化而变化，使得类别间排斥不稳定[11]、[15]。基于队列的动量字典稳定了负样本并提高了覆盖率，而类别锚点和置信度加权有助于在噪声和不平衡情况下保持边界更新的稳定性[12]、[16]。

为了解决这些问题，我们提出了GPGC，这是一个用于对话中多模态情感识别的图蒸馏和原型引导的对比训练框架。GPGC包括两个核心组件：图原型蒸馏（Graph-Prototype Distillation，简称GPD）和原型引导的动量对比（Prototype-Guided Momentum Contrast，简称PGMC）。GPD构建了半融合的节点特征，并学习了一个稀疏的对话内图。分布一致性、表示对齐和原型对齐在同一图过滤后的输出上定义。因此，后验一致性、几何收缩和类别方向在单一的载体表示上得到优化。这些梯度作用于原始模态特征的投影层和图参数，从而将模态特定的漂移向类别-原型方向收缩，并提高跨模态决策的一致性。PGMC使用模内上下文表示作为对比输入，结合动量编码和跨批量队列。原型引导的正样本增强了类别内的持续吸引力和类别间的排斥力，减少了类别内方差并扩大了类别间边界。来自动量后验的置信度加权抑制了低置信度梯度，并在噪声和不平衡情况下稳定了边界更新。GPD和PGMC共同优化，它们的更新通过用于图构建和对比学习的共享主干表示耦合在一起。

主要贡献可以总结如下：

•
我们设计了图原型蒸馏（Graph-Prototype Distillation，简称GPD），它使用Gumbel-Sigmoid学习节点连接，并在对话中聚合高置信度的邻域特征。在低维投影空间中，我们对比图聚合的表示，使用对称的KL散度约束跨模态类别分布，并使用可学习的类别原型进行类别级对齐，从而提高跨模态一致性和区分性。
•
我们提出了一种原型引导的动量对比训练策略，该策略将每种模态的查询与其动量键和类别原型之间的球形插值构建的引导正样本对齐。负样本由相同模态的动量队列提供。我们还在损失函数中应用了基于后验熵的置信度加权，从而扩大了类别间边界并在噪声和不平衡条件下增强了训练稳定性。
•
我们在IEMOCAP、MELD和CMU-MOSEI上进行了广泛的实验。我们的模型在多个指标上优于现有最先进的方法，消融研究验证了每个提出模块的个别贡献和有效性。

方法论

如图2所示，所提出的GPGC框架由模态编码器、多模态主干、图原型蒸馏（Graph-Prototype Distillation，简称GPD）模块和原型引导的动量对比（Prototype-Guided Momentum Contrast，简称PGMC）模块组成。文本、音频和视觉输入分别由各自的编码器处理，以提取话语级特征，然后将这些特征与说话者和位置嵌入结合，再输入到多模态主干中，以便在模内和跨模态层进行上下文建模

数据集

我们在IEMOCAP和MELD上进行了实验，并进一步在CMU-MOSEI上评估了鲁棒性。表1总结了IEMOCAP和MELD中的对话数量和话语数量。

IEMOCAP [48]是一个实验室收集的二元交互语料库，其中包含了十位专业演员表演的脚本化和即兴场景的录音。它提供了同步的语音、视频和动作捕捉轨迹，以支持多模态情感分析研究。

结论与未来工作

在这项工作中，我们提出了GPGC，这是一个用于对话中多模态情感识别的框架。基于从Transformer主干获得的上下文化表示，GPGC将基于图的上下文建模与类别级原型约束相结合，从而在表示路径和决策路径上共同提高跨模态一致性和类别间分离性。在这个框架内，图原型蒸馏在内部聚合了可信的邻域

CRediT作者贡献声明

Bengong Yu：撰写 – 审稿与编辑、监督、方法论、资金获取、形式分析、概念化。 Jun Wang：撰写 – 审稿与编辑、原始草稿撰写、可视化、验证、资源管理、方法论、概念化。 Chenyue Li：可视化、软件开发、资源管理、数据 curation。 Zhonghao Xi：软件开发、资源管理、调查、数据 curation。 Xianxian Zhao：可视化、验证、调查、数据 curation。 Yue Li：可视化、软件开发、形式化工作。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了中国国家自然科学基金（编号72188101、72472043）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号