面向多模态阿拉伯语情感分析(Multimodal Arabic Sentiment Analysis)的基于门控融合(Gated Fusion)的定向语义增强(Directional Semantic Enhancement)方法

《Machine Learning and Knowledge Extraction》：A Directional Semantic Enhancement Approach with Gated Fusion for Multimodal Arabic Sentiment Analysis

【字体：大中小】 时间：2026年06月09日 来源：Machine Learning and Knowledge Extraction 6

编辑推荐：

　　摘要：多模态阿拉伯语情感分析(Multimodal Arabic Sentiment Analysis, MuSA)因用户生成多媒体内容的激增受到广泛关注，但由于模态不平衡(Modality Imbalance)及跨模态对齐(Cross-modal Align

摘要：多模态阿拉伯语情感分析(Multimodal Arabic Sentiment Analysis, MuSA)因用户生成多媒体内容的激增受到广泛关注，但由于模态不平衡(Modality Imbalance)及跨模态对齐(Cross-modal Alignment)较弱，有效融合文本、声学及视觉模态仍具挑战性。本研究提出一种结合门控融合(Gated Fusion)的定向语义增强(Directional Semantic Enhancement, DSE)方法来解决上述局限，旨在显式建模模态间相似性引导的语义迁移，并在融合阶段自适应调节信息流。所提架构包含四个主要阶段：模态编码(Modality Encoding)、定向语义增强(Directional Semantic Enhancement)、门控融合(Gated Fusion)及分类(Classification)。定向语义交互实现结构化的跨模态知识交换，自适应门控机制平衡原始表示与增强表示以减轻模态特有噪声。研究在含8700个多模态样本的Ar-MuSA基准数据集上进行大量实验，所提方法在隐层维度(Latent Dimension)为1024时达到89.89%准确率(Accuracy)及F1值0.8989，优于早期融合(Early Fusion)、晚期融合(Late Fusion)及近期先进方法(State-of-the-Art, SOTA)。研究强调了受控跨模态对齐的重要性，并为阿拉伯语多媒体环境下的鲁棒多模态情感理解提供了一种可扩展方法。

论文解读：《Machine Learning and Knowledge Extraction》

一、研究背景与意义

多模态情感分析(Multimodal Sentiment Analysis, MuSA)旨在融合文本、音频和视觉信息以实现更准确和鲁棒的情感识别。阿拉伯语作为形态丰富且方言多样的语言，其多模态情感分析面临额外挑战：阿拉伯语方言变体大，现有阿拉伯语多模态数据集常出现模态不平衡问题——文本特征往往主导预测性能，而音频与视觉信号贡献不稳定。传统融合策略如早期融合（特征拼接）和晚期融合（决策层聚合）未能显式建模结构化跨模态依赖关系，易受噪声或不可靠模态交互影响，导致跨模态对齐弱、模态间冲突未被有效抑制。因此，如何在阿拉伯语多模态场景下实现可控的跨模态语义传递与自适应信息融合，是亟待解决的问题。研究人员针对上述问题提出了一种带门控融合(Gated Fusion)的定向语义增强(Directional Semantic Enhancement, DSE)架构，并在Ar-MuSA基准数据集上验证其有效性，为该领域提供了更具解释性与鲁棒性的交互感知融合方案。论文发表于《Machine Learning and Knowledge Extraction》。

二、主要关键技术方法概述

研究人员采用Ar-MuSA公开基准数据集（8700个同步多模态样本，源自埃及阿拉伯语YouTube视频，含文本转录、16 kHz音频段及对齐视觉帧，标注为积极/消极/中性）。文本嵌入使用MARBERT（d_t=768），音频嵌入使用HuBERT（d_a=1024），视觉嵌入使用Vision Transformer(ViT)（d_v=768），均离线提取。模型含四阶段：(1)模态编码——全连接投影+BatchNorm+GELU激活+类Squeeze-and-Excitation特征注意力；(2)定向语义增强(Directional Semantic Enhancement)——基于余弦相似度计算模态间语义消息，经可学习变换与门控调节后加权叠加至原表示得增强表示；(3)门控融合(Gated Fusion)——对每个模态的原始编码表示与增强表示计算 sigmoid 门控向量进行自适应加权融合；(4)分类——三模态融合向量经前馈网络与softmax输出情感分布。训练采用分层80%/10%/10%划分，AdamW优化器，加权交叉熵损失配合标签平滑，引入Mixup及相似度正则项，早停法防过拟合，隐层维度分别测试128/256/512/1024。

三、研究结果

3.1 隐层维度对整体性能的影响

研究人员在不同隐层维度（128、256、512、1024）下评估模型，发现模型在各维度下均保持稳定且有竞争力的性能。维度128即达准确率89.77%、F1值0.8978；维度1024取得最优结果（准确率89.89%，F1值0.8989）。结果表明所提融合与交互机制对表征容量变化具鲁棒性，较大隐空间有助于学习更具判别力的多模态特征。

3.2 与基线及先进方法的比较(Comparison with Baselines and State-of-the-Art Methods)

研究人员将所提方法与早期融合、晚期融合、基于大语言模型的晚期融合(SILMA AI、LLaMA 3.1-8B)、GCMA-Net等方法对比。早期融合法准确率77.6%(F1=0.776)，GCMA-Net为80.17%(F1=0.8015)，而所提方法达89.89%(F1=0.8989)，显著优于所有对比方法。分析表明早期融合缺乏结构化跨模态依赖建模，GCMA-Net虽引入门控交叉注意力但仍偏隐式且易受文本主导影响；所提方法通过显式定向语义增强实现相似性引导的可控信息迁移，配合自适应门控同时缓解模态不平衡与弱对齐问题。

3.3 不同隐层维度下的类别级性能分析(Class-Wise Performance Analysis Across Latent Space Dimensions)

研究人员分析各情感类别（积极、消极、中性）在四种隐层维度下的精确率(Precision)、召回率(Recall)及F1值。整体表现稳定：积极类F1值在512维最优；消极类召回随维度增大提升，1024维F1最优；中性类各指标波动最小。结果表明适中隐层维度(512)已能较好平衡各类别性能，超过512后增益有限。

3.4 消融实验(Ablation Study)

研究人员依次移除定向语义增强模块、门控融合模块及两者同时移除进行消融。去除定向语义增强后准确率降至87.82%(F1=0.8780)；去除门控融合后准确率88.62%(F1=0.8861)；两者皆去退化为基础融合，准确率86.95%(F1=0.8692)。证明两个模块各自独立及协同贡献于表征对齐与鲁棒性提升，在强预训练编码器基础上仍可带来约3%绝对准确率增益，且参数量增加有限。

四、讨论与结论翻译（摘自原文Conclusion部分浓缩翻译）

研究结果表明，所提带门控融合的定向语义增强方法通过显式建模相似性引导的跨模态交互，有效改善了多模态阿拉伯语情感分析效果——自适应门控调节模态间语义迁移，在准确性与F1值上显著优于传统早期/晚期融合及近期先进方法。研究证实结构化、受控的跨模态交互比简单特征拼接更能缓解模态不平衡并增强表征对齐。局限性在于目前仅基于Ar-MuSA数据集（主要为埃及阿拉伯语方言），泛化至其他阿拉伯语方言需进一步验证；较高维隐层表示会增加计算复杂度。未来应构建更大规模、方言更多样的阿拉伯语多模态语料，引入域适应策略及先进多模态Transformer以进一步提升跨模态对齐能力。总之，本工作凸显了交互中心融合机制在多模态阿拉伯语情感分析中的价值，也为可扩展的多模态表征学习指明方向。

热点排行