《Knowledge-Based Systems》:Towards Robust and High-Capacity Coverless Image Steganography
编辑推荐:
多模态对话情感识别中,针对模态冲突与跨轮上下文变化,提出图原型蒸馏与原型引导动量对比框架,通过统一内模态图聚合表示优化跨模态一致性与类间可分性,实验在IEMOCAP、MELD和CMU-MOSEI上验证有效性。
Bengong Yu|Jun Wang|Chenyue Li|Zhonghao Xi|Xianxian Zhao|Yue Li
合肥工业大学管理学院,中国安徽省合肥市屯溪路230009
摘要
在对话中的多模态情感识别旨在在异构的文本、音频和视觉信号交织以及对话上下文在轮次间演变的情况下,稳健地确定话语级别的情感。尽管基于图的对话方法已经取得了一些进展,但在模态冲突与轮次间上下文变化共存时,决策校准、几何对齐和类别级组织通常被孤立地建模。这促进了信息扩散和结构冗余,从而阻碍了难以区分的情感的可分离性和整体鲁棒性。为了解决这些问题,我们引入了图原型蒸馏与原型引导的对比训练(GPGC),它在统一的模态内图聚合表示上共同约束了表示对齐、分布一致性和原型对齐,从而从概率和几何两个角度加强了类别内的分散性,并稳定了类别-原型方向。进一步采用原型引导的动量对比来利用跨批稳定的字典和引导的正样本,以一致地扩大针对难负样本的边界,同时减少优化过程中噪声样本的干扰。在两个广泛使用的MERC基准测试和一个实际场景的多模态情感基准测试上的系统评估表明,整体性能和稳定性都得到了持续的提高。
引言
对话中的多模态情感识别(MERC)旨在通过联合利用文本、音频和视觉模态来识别对话中每个话语的情感状态。MERC在诸如共情对话代理、自适应辅导系统、AI辅助咨询和社会机器人等应用中发挥着关键作用。在这些场景中,情感感知提高了交互质量和用户满意度,最近的研究强调了其在以人为中心的AI和交互系统中的核心重要性[1]、[2]、[3]、[4]。
在多模态对话环境中,文本语义、音频线索和视觉表达通常异步地传递情感信息。如图1a所示,MELD训练集中的一个完整对话实例包括说话者视频帧、相应的话语文本和音频语音特征,以及每个句子的真实情感标签。与情感相关的证据分布在时间和模态两个维度上,因此情感识别必须总结多轮过程中的多模态线索。在这种背景下,模态之间存在固有的异质性和互补性。图1b显示,同一个话语在不同的模态中可能表现出不一致的情感表达。现有研究通过共享表示和上下文建模来研究轮次级别和说话者级别的动态,这改善了对话级别的情感跟踪[5]、[6]。图结构化关系聚合引入了对话拓扑和邻域传播,以捕获话语依赖性并支持跨模态交互[7]、[8]。对齐和蒸馏约束在决策或表示空间中强制一致性,并减少融合中的模态偏差[9]、[10]。对比判别学习通过样本级目标扩大类别边界,并增强细粒度的分离性[11]、[12]。
在复杂的对话中,模态冲突和接近的类别边界同时发生。因此,必须在相同的训练过程中实现跨模态一致性和情感可分离性。当一致性约束作用于不同的表示变量时,后验校准和几何对齐不能在同一图过滤输出上同步优化,这在证据冲突的情况下会削弱收敛稳定性[9]、[13]。当通过辅助分支引入类别锚点并且它们与图过滤变量仅有弱关联时,类别内收缩和类别间分离没有与邻域选择一致的梯度驱动因素[8]、[14]。此外,批量内的负样本随着批量组成的变化和长尾频率而变化,使得类别间排斥不稳定[11]、[15]。基于队列的动量字典稳定了负样本并增加了覆盖率,而类别锚点和置信度加权有助于在噪声和不平衡的情况下保持边界更新的稳定性[12]、[16]。
为了解决这些问题,我们提出了GPGC,这是一个用于对话中多模态情感识别的图蒸馏和原型引导的对比训练框架。GPGC包括两个核心组件,即图原型蒸馏(GPD)和原型引导的动量对比(PGMC)。GPD构建了半融合的节点特征,并学习了一个稀疏的对话内图。在相同的图过滤输出上定义了分布一致性、表示对齐和原型对齐。因此,后验一致性、几何收缩和类别方向在单一的载体表示上得到优化。这些梯度作用于原始模态特征的投影层和图参数,从而将模态特定的偏差收缩到类别-原型方向,并提高跨模态决策的一致性。PGMC使用模态内上下文表示作为对比输入,结合动量编码和跨批队列。原型引导的正样本增强了持续的类别内吸引力和类别间排斥力,减少了类别内方差并扩大了类别间边界。来自动量后验的置信度加权抑制了低置信度梯度,并在噪声和不平衡的情况下稳定了边界更新。GPD和PGMC共同优化,它们的更新通过用于图构建和对比学习的共享骨干表示耦合在一起。
主要贡献可以总结如下:
- •
我们设计了图原型蒸馏(GPD),它学习节点连接,并在对话中聚合高置信度的邻域特征。在低维投影空间中,我们对比图聚合的表示,使用可学习的类别原型来约束跨模态类别分布,并进行类别级对齐,从而提高跨模态一致性和区分性。
•我们提出了一种原型引导的动量对比训练策略,它将每个模态查询与其动量键和类别原型之间的球形插值构建的引导正样本对齐。负样本由相同模态的动量队列提供。我们进一步在损失中应用基于后验熵的置信度加权,这扩大了类别间边界并在噪声和不平衡条件下增强了训练稳定性。
•我们在IEMOCAP、MELD和CMU-MOSEI上进行了广泛的实验。我们的模型在多个指标上优于现有的最先进方法,消融研究验证了每个提出模块的个别贡献和有效性。
章节片段
对话中的多模态情感识别
对话中的多模态情感识别(MERC)联合利用文本、音频和视觉模态来识别对话中每个话语的情感状态。MERC在诸如共情对话代理、自适应辅导系统、AI辅助咨询和社会机器人等应用中发挥着关键作用。在这些场景中,情感感知提高了交互质量和用户满意度,最近的研究强调了其在以人为中心的AI和交互系统中的核心重要性[1]、[2]、[3]、[4]。
在多模态对话环境中,文本语义、音频线索和视觉表达通常异步地传递情感信息。如图1a所示,MELD训练集中的一个完整对话实例包括说话者视频帧、相应的话语文本和音频语音特征,以及每个句子的真实情感标签。与情感相关的证据分布在时间和模态两个维度上,因此情感识别必须总结多轮过程中的多模态线索。在这种背景下,模态之间存在固有的异质性和互补性。图1b显示,同一个话语在不同模态中可能表现出不一致的情感表达。现有研究通过共享表示和上下文建模来研究轮次级别和说话者级别的动态,这改善了对话级别的情感跟踪[5]、[6]。图结构化关系聚合引入了对话拓扑和邻域传播,以捕获话语依赖性并支持跨模态交互[7]、[8]。对齐和蒸馏约束在决策或表示空间中强制一致性,并减少融合中的模态偏差[9]、[10]。对比判别学习通过样本级目标扩大类别边界,并增强细粒度的分离性[11]、[12]。
在复杂的对话中,模态冲突和接近的类别边界同时发生。因此,必须在相同的训练过程中实现跨模态一致性和情感可分离性。当一致性约束作用于不同的表示变量时,后验校准和几何对齐不能在同一图过滤输出上同步优化,这在证据冲突的情况下会削弱收敛稳定性[9]、[13]。当通过辅助分支引入类别锚点并且它们与图过滤变量仅有弱关联时,类别内收缩和类别间分离没有与邻域选择一致的梯度驱动因素[8]、[14]。此外,批量内的负样本随着批量组成和长尾频率的变化而变化,使得类别间排斥不稳定[11]、[15]。基于队列的动量字典稳定了负样本并增加了覆盖率,而类别锚点和置信度加权有助于在噪声和不平衡的情况下保持边界更新的稳定性[12]、[16]。
为了解决这些问题,我们提出了GPGC,这是一个用于对话中多模态情感识别的图蒸馏和原型引导的对比训练框架。GPGC包括两个核心组件,即图原型蒸馏(GPD)和原型引导的动量对比(PGMC)。GPD构建了半融合的节点特征,并学习了一个稀疏的对话内图。在相同的图过滤输出上定义了分布一致性、表示对齐和原型对齐。因此,后验一致性、几何收缩和类别方向在单一的载体表示上得到优化。这些梯度作用于原始模态特征的投影层和图参数,从而将模态特定的偏差收缩到类别-原型方向,并提高跨模态决策的一致性。PGMC使用模态内上下文表示作为对比输入,结合动量编码和跨批队列。原型引导的正样本增强了持续的类别内吸引力和类别间排斥力,减少了类别内方差并扩大了类别间边界。来自动量后验的置信度加权抑制了低置信度梯度,并在噪声和不平衡的情况下稳定了边界更新。GPD和PGMC共同优化,它们的更新通过用于图构建和对比学习的共享骨干表示耦合在一起。
主要贡献可以总结如下:
- •
我们设计了图原型蒸馏(GPD),它学习节点连接,并在对话中聚合高置信度的邻域特征。在低维投影空间中,我们对比图聚合的表示,使用对称的KL散度约束跨模态类别分布,并使用可学习的类别原型进行类别级对齐,从而提高跨模态一致性和区分性。
•我们提出了一种原型引导的动量对比训练策略,它将每个模态查询与其动量键和类别原型之间的球形插值构建的引导正样本对齐。负样本由相同模态的动量队列提供。我们进一步在损失中应用基于后验熵的置信度加权,这扩大了类别间边界并在噪声和不平衡条件下增强了训练稳定性。
•我们在IEMOCAP、MELD和CMU-MOSEI上进行了广泛的实验。我们的模型在多个指标上优于现有的最先进方法,消融研究验证了每个提出模块的个别贡献和有效性。
章节片段
对话中的多模态情感识别
对话中的多模态情感识别(MERC)联合建模对话文本、语音韵律和面部或身体线索,以跟踪说话者轮次间的情感动态。这种方法揭示了仅依赖文本时容易掩盖的微妙现象,包括强度漂移、讽刺性线索和快速的情感变化。最近关于MERC的研究已经超越了早期的基于张量和基于记忆的范式,朝着说话者条件化的上下文编码器发展
方法论
如图2所示,所提出的GPGC框架由模态编码器、多模态骨干、图原型蒸馏(GPD)模块和原型引导的动量对比(PGMC)模块组成。文本、音频和视觉输入分别由各自的编码器处理,以提取话语级别特征,这些特征与说话者和位置嵌入结合,然后输入到多模态骨干中,以在模态内和跨模态级别进行上下文建模,以获得
数据集
我们在IEMOCAP和MELD上进行实验,并进一步在CMU-MOSEI上评估了鲁棒性。表1总结了IEMOCAP和MELD中的对话和话语数量。
IEMOCAP [48]是一个实验室收集的二元交互语料库,其中包含十个专业演员表演的脚本化和即兴场景的录音。它提供了同步的语音、视频和运动捕捉轨迹,以支持多模态情感分析研究。在情感识别文献中,一个
结论和未来工作
在这项工作中,我们提出了GPGC,这是一个用于对话中多模态情感识别的框架。基于从Transformer骨干获得的上下文化表示,GPGC将基于图的上下文建模与类别级原型约束相结合,共同提高跨模态一致性和类别间可分离性,无论是表示路径还是决策路径。在这个框架内,图原型蒸馏在
CRediT作者贡献声明
Bengong Yu:写作 – 审稿与编辑、监督、方法论、资金获取、形式分析、概念化。Jun Wang:写作 – 审稿与编辑、原始草稿编写、可视化、验证、资源管理、方法论、概念化。Chenyue Li:可视化、软件开发、资源管理、数据 curating。Zhonghao Xi:软件开发、资源管理、调查、数据 curating。Xianxian Zhao:可视化、验证、调查、数据 curating。Yue Li:可视化、软件开发、形式化
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
致谢
这项工作得到了中国国家自然科学基金(编号72188101、72472043)的支持。