自适应多模态图整合网络在多模态情感分析中的应用

《IEEE Transactions on Audio, Speech and Language Processing》:Adaptive Multimodal Graph Integration Network for Multimodal Sentiment Analysis

【字体: 时间:2025年11月27日 来源:IEEE Transactions on Audio, Speech and Language Processing

编辑推荐:

  多模态情感分析中,现有模型忽视模态间信息密度不均衡及复杂跨模态交互,导致预测偏差。本文提出AMGIN模型,通过图结构建模多模态关系,结合自适应模式调整机制(AMAM)动态优化各模态权重,并引入特征重建损失约束。实验表明AMGIN在IEMOCAP、CMU-MOSEI等数据集上显著优于SOTA方法,有效解决了异构模态的长期依赖建模与计算效率问题。

  

摘要:

目前大多数用于分析多模态序列的模型往往忽略了由于信息密度不同导致的各个模态表示的贡献不平衡,以及不同模态之间的内在多关系交互。因此,可能会形成对模态之间复杂相互作用的片面理解,从而限制了预测的准确性和有效性。为了解决这些关键问题,我们提出了自适应多模态图集成网络(AMGIN)用于多模态情感分析。具体而言,AMGIN将多模态序列转换为图结构,并通过结合多种边类型来区分性地融合复杂的模态内和模态间相关性。为了准确调节每种模态的贡献,我们提出了自适应模态调整机制(AMAM),它包含两个主要组成部分:模态细化损失(MR Loss),根据模态的相对置信度通过反向传播选择性地优化单模态分支的参数;以及模态置信度门控模块(MCGM),根据模态特定表示与共享语义分布的偏差自适应地过滤噪声。此外,我们还引入了特征重构损失作为额外的约束,以防止过度修改。为了验证我们提出方法的有效性,我们在三个常用于情感分析的基准数据集上进行了广泛的实验,即IEMOCAP、CMU-MOSEI和CMU-MOSI。另外,我们还在UR-FUNNY数据集上考虑了多模态幽默检测任务。实验结果证明了AMGIN相对于现有方法的优越性。

引言

多模态情感分析[1]、[2]、[3]在过去十年中因其广泛的应用(例如人机交互、社交媒体分析和客户反馈系统)而受到了显著的研究关注。尽管已经有许多尝试[4]、[5]、[6],但这仍然是一个巨大的挑战,因为不同的模态可能存在于完全不同的空间中,这被称为“异质性差距”。为了弥合这一差距,早期的工作主要假设多模态序列在单词分辨率上是对齐的,并通过循环神经网络(RNN)[7]对齐后的步骤进行跨模态交互建模。例如,Mai等人[8]提出了一种残差记忆网络来融合模态之间的短期时间交互。Zedah等人[9]结合了混合LSTM记忆和多注意力块来建模随时间变化的视图特定和跨视图交互。然而,这些基于RNN的方法存在两个问题:首先,在单词层面仅考虑短期交互是不切实际的;其次,由于RNN的循环性质,其推理速度较慢,且学习长期依赖关系的能力有限。为了解决这些挑战,提出了基于Transformer的模型[10]、[11]、[12],它们可以直接从未对齐的多模态流中学习表示。Tsai等人[13]提出了一种多模态Transformer(MulT)来学习模态间元素的方向性注意力。Wu等人[14]设计了一个基于多头注意力的融合网络,可以不同地处理任意两个模态对之间的交互。然而,跨模态Transformer是一种双模态操作,一次只考虑两个模态的输入,因此需要大量的参数来保留原始模态信息。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号