
-
生物通官微
陪你抓住生命科技
跳动的脉搏
自适应多模态图整合网络在多模态情感分析中的应用
《IEEE Transactions on Audio, Speech and Language Processing》:Adaptive Multimodal Graph Integration Network for Multimodal Sentiment Analysis
【字体: 大 中 小 】 时间:2025年11月27日 来源:IEEE Transactions on Audio, Speech and Language Processing
编辑推荐:
多模态情感分析中,现有模型忽视模态间信息密度不均衡及复杂跨模态交互,导致预测偏差。本文提出AMGIN模型,通过图结构建模多模态关系,结合自适应模式调整机制(AMAM)动态优化各模态权重,并引入特征重建损失约束。实验表明AMGIN在IEMOCAP、CMU-MOSEI等数据集上显著优于SOTA方法,有效解决了异构模态的长期依赖建模与计算效率问题。
多模态情感分析[1]、[2]、[3]在过去十年中因其广泛的应用(例如人机交互、社交媒体分析和客户反馈系统)而受到了显著的研究关注。尽管已经有许多尝试[4]、[5]、[6],但这仍然是一个巨大的挑战,因为不同的模态可能存在于完全不同的空间中,这被称为“异质性差距”。为了弥合这一差距,早期的工作主要假设多模态序列在单词分辨率上是对齐的,并通过循环神经网络(RNN)[7]对齐后的步骤进行跨模态交互建模。例如,Mai等人[8]提出了一种残差记忆网络来融合模态之间的短期时间交互。Zedah等人[9]结合了混合LSTM记忆和多注意力块来建模随时间变化的视图特定和跨视图交互。然而,这些基于RNN的方法存在两个问题:首先,在单词层面仅考虑短期交互是不切实际的;其次,由于RNN的循环性质,其推理速度较慢,且学习长期依赖关系的能力有限。为了解决这些挑战,提出了基于Transformer的模型[10]、[11]、[12],它们可以直接从未对齐的多模态流中学习表示。Tsai等人[13]提出了一种多模态Transformer(MulT)来学习模态间元素的方向性注意力。Wu等人[14]设计了一个基于多头注意力的融合网络,可以不同地处理任意两个模态对之间的交互。然而,跨模态Transformer是一种双模态操作,一次只考虑两个模态的输入,因此需要大量的参数来保留原始模态信息。
生物通微信公众号
知名企业招聘