编辑推荐:
现有多模态情感分析(MSA)模型常忽略单模态独特优势,致信息冗余与特征冲突。研究人员提出文本增强模态表示学习模型 TEMSA,通过文本引导跨模态映射与重构模块提升性能。在 CMU-MOSI 等数据集验证其有效性,为 MSA 提供新思路。
在数字化时代,情感分析已成为理解人类行为与意图的关键技术。随着短视频平台的兴起,包含语言、视觉、音频等多模态信息的视频数据爆发式增长,传统仅依赖单一语言模态的情感分析方法难以全面捕捉复杂情感。现有多模态情感分析(Multimodal Sentiment Analysis, MSA)模型大多聚焦于提取跨模态公共特征或简单融合异质数据,却忽视了各模态的独特表征优势 —— 平等对待所有模态并采用双向信息传递机制,容易导致信息冗余和特征冲突。例如,当视频中人物语言表达积极但面部表情或语调呈现消极时,单纯的特征融合可能无法准确判别真实情感倾向,凸显出当前模型在处理模态间差异与互补性时的局限性。因此,如何充分发挥语言模态的语义主导作用,同时挖掘视觉、音频模态的细粒度情感线索,成为提升多模态情感分析准确性的关键挑战。
为解决上述问题,国内研究团队开展了文本引导的模态表示学习研究。研究人员提出一种文本增强模态表示学习模型(Text-Enhanced Modal Representation Learning Model, TEMSA),旨在通过文本引导的跨模态交互与模态内解耦机制,构建更鲁棒的多模态统一表征。该研究成果发表在《Computer Vision and Image Understanding》,为多模态情感分析领域提供了新的方法论。
研究团队采用的关键技术方法包括:
- 特征提取:利用预训练大模型从原始视频序列中提取语言、视觉、音频的情感特征,并通过卷积层归一化各模态特征维度,确保后续处理的兼容性。
- 文本引导多头跨注意力机制(MTAT):通过文本引导的多头跨注意力机制,将语言信息嵌入到非语言模态(视觉、音频)的情感相关表示学习中,生成跨模态增强表示,强化模态间交互。
- 文本引导重构模块:基于文本增强的非语言模态特征,解耦出模态特定表示,捕捉模态间差异信息,实现对视觉表情变化、音频音高波动等细粒度特征的提取。
- 双表示学习框架:通过跨模态映射捕获模态间一致信息,通过模态内解耦提取模态差异信息,实现多模态情感关联的深入理解。
研究结果
多模态情感分析的挑战与文本引导的必要性
实验分析表明,语言模态通常是多模态情感分析中最具主导性的模态。例如,在视频片段中,尽管视觉(皱眉)或音频(低音)可能传递消极线索,但语言内容 “她实际上相当不错” 明确表达积极情感,凸显语言模态在情感判别中的核心作用。消融实验进一步证实,语言模态包含更丰富的情感信息,冗余和噪声更少,强调了文本引导在多模态表示学习中的必要性。
TEMSA 模型架构与性能验证
TEMSA 模型架构分为特征提取、跨模态表示学习、模态内解耦与重构、情感分类四部分。在 CMU-MOSI(英语独白视频,2199 个片段)、CMU-MOSEI(英语对话视频,23454 个片段)、CH-SIMS(中文短视频,10000 个片段)三个数据集上的实验显示,TEMSA 在情感分类准确率、F1 值等关键指标上均优于现有模型,如 decoupled multimodal distillation(DMD)、gradient-based representation enhancement(GRE)等,验证了其有效性。
关键模块的作用机制
文本引导多头跨注意力模块通过语言模态增强视觉、音频模态的情感表征,使非语言模态的特征更贴合语义情感基调;文本引导重构模块则从文本增强的非语言特征中解耦出模态特定细节,如视觉模态的面部表情动态、音频模态的语调起伏,实现整体情感基调和细粒度特征的互补。这种 “跨模态一致信息捕捉 + 模态内差异信息提取” 的双框架,有效缓解了模态异质性问题,提升了多模态情感分析的全面性。
研究结论与意义
TEMSA 通过文本引导的跨模态映射与模态内解耦机制,实现了多模态情感分析中模态间一致性与模态内特异性的平衡。其创新点在于:
- 提出基于文本引导的成对跨模态映射模块,提取模态间一致表示;
- 引入文本引导重构训练策略,解耦模态特定表示;
- 构建双表示学习框架,促进多模态数据的深度融合。
该研究为多模态情感分析领域提供了一种高效的表征学习方法,尤其在处理语言主导、非语言模态辅助的复杂情感场景时具有显著优势。未来可进一步拓展至跨语言多模态场景或实时情感分析应用,推动其在社交安全、内容审核、智能交互等领域的实际落地,为人工智能理解人类情感提供更强大的技术支撑。