基于多模态原型网络的可解释性情感分析新方法MMPNet

《Scientific Reports》:Multimodal prototypical network for interpretable sentiment classification

【字体: 时间:2025年10月27日 来源:Scientific Reports 3.9

编辑推荐:

  为解决多模态情感分析模型缺乏时间维度可解释性的问题,研究人员开展了"多模态原型网络(MMPNet)"主题研究,创新性地将原型学习机制扩展到多模态时序数据处理领域。研究通过双分支原型网络架构(局部原型分支+全局原型分支)实现了时间级和模态级双重可解释性,在CMU-MOSI和CMU-MOSEI数据集上分别达到75.1%和73.4%的准确率,较现有方法提升2.9%和1.6%,为可解释人工智能(XAI)在多模态情感分析领域的应用提供了新范式。

  
在当今数字化时代,人们表达情感的方式已从纯文本扩展到包含视频、音频和视觉元素的丰富多模态交互。这种演变催生了多模态情感分析(Multimodal Sentiment Analysis, MSA)这一新兴领域,其目标是通过整合文本内容、音频信号和视觉线索等多种数据流,更准确地理解人类情感和意图。
尽管现有的多模态情感分析方法在分类准确率方面取得了显著进展,但这些模型大多依赖于缺乏可解释性的潜在表征。这种决策过程的不透明性成为一个重要局限,因为模型无法解释为何将特定的情感分类分配给特定输入。神经网络的可解释性与其性能指标同等重要,它为了解模型行为和多模态情感分析的决策过程提供了重要视角。更令人担忧的是,现有可解释方法主要关注静态特征归因,在理解特征重要性的时间动态性及其与模型跨时间维度决策过程的关系方面存在明显空白。
为了应对这些挑战,来自安徽科技大学和约翰斯霍普金斯大学的研究团队在《Scientific Reports》上发表了题为"Multimodal prototypical network for interpretable sentiment classification"的研究论文,提出了多模态原型网络(Multimodal Prototypical Networks, MMPNet),将基于原型的可解释性扩展到多模态情感分类领域。
MMPNet的核心创新在于能够识别时间级特征的贡献,并利用它们解释特定预测的原因,同时帮助发现模态级特征的相对重要性。与传统多模态模型仅提供模态级贡献排序(如"文本序列>视觉序列>声学序列")不同,MMPNet为每个模态提供时间贡献排序,包括视觉序列(如"3>2>4>1")、文本序列(如"2>1>3>4")和声学序列(如"1>3>4>2"),实现了时间级特征的细粒度量化。
研究方法上,作者主要采用了多模态时序数据处理、Transformer编码器架构、双分支原型网络设计、原型相似性计算机制以及基于距离的相似性度量方法。实验数据来源于公开的多模态情感分析基准数据集CMU-MOSI和CMU-MOSEI,这些数据集包含从YouTube电影评论中提取的文本、视觉和音频模态的对齐多模态序列。
整体框架设计
MMPNet处理多模态输入数据通过四个主要组件:数据到序列标记器、模态特定Transformer编码器、双分支原型网络和情感预测器。
数据到序列标记器首先将原始视频、文本和音频输入转换为各自的标记嵌入序列(Χv, Χt, Χa)。这些序列然后通过每个模态的专用Transformer编码器网络进行处理。在编码过程中,Transformer生成两种类型的表征:局部序列特征(Zv, Zt, Za)和全局标记嵌入(zvg, ztg, zag)。局部序列表征保留每个模态的时间信息,而全局标记嵌入通过注意力机制聚合每个模态整个序列的信息。
多模态原型网络
MMPNet的核心是多模态原型网络,由局部和全局原型分支组成,旨在捕获模态特定的时间模式和跨模态交互。
局部原型网络(Local Prototypical Network, LPN)独立处理每个模态的编码序列。对于每个模态,学习一组原型??m = [pm1, ..., pmKm] ∈ RKm×d,其中Km是每个模态的原型数量,每个原型pmi ∈ Rd代表特定于该模态m的学习时间模式。全局原型网络(Global Prototypical Network, GPN)处理连接的全局标记表征[zvg; ztg; zag] ∈ R3d以捕获跨模态模式。
为了将原型学习机制从空间域适应到时间域,作者将时间序列转换为二维特征图。这种转换对于将基于原型的学习应用于时间数据至关重要。特征图被分成重叠的时间块,其中每个块代表时间序列的一个片段。计算原型和输入特征图之间的相似性,以测量原型与特征图内最相似块之间的距离。
实验设计与结果
研究团队在CMU-MOSI和CMU-MOSEI两个广泛采用的多模态情感分析基准上评估了MMPNet。CMU-MOSI数据集包含来自93个不同YouTube电影评论的2,199个视频片段,而CMU-MOSEI数据集提供了更大规模的收集,包含从5,000个视频中提取的23,453个视频片段。
实验结果显示,MMPNet在CMU-MOSI数据集上达到了75.1%的整体准确率,比第二好的模型MULT(72.2%)提高了2.9个百分点。在CMU-MOSEI数据集上,MMPNet以73.4%的准确率达到了最先进的性能,超过了第二好的执行者MULT(71.8%)1.6%的边际。
模型效率分析表明,MMPNet仅需要236,694个可训练参数,与MURO相比减少了99%以上,同时实现了更好的性能。这种参数数量和FLOPs的减少表明,MMPNet的双分支原型架构比MURO的基于路由的方法更有效地捕获时间多模态模式。
可解释性分析
通过详细分析学习到的原型表征,研究团队使用t-SNE(t-Distributed Stochastic Neighbor Embedding)技术评估了MMPNet的可解释性能力。可视化结果显示,在原型特征空间中出现了明显的聚类模式。对于两个数据集,原型自然地分离成两个明确定义的聚类,分别对应积极情感(蓝色)和消极情感(橙色)。
MMPNet可解释性的另一个重要方面是通过相似性分析揭示时间特征与模型决策之间关系的能力。如图6所示,相似性矩阵显示了学习和极性和积极情感原型在所有三种模态(文本、声学和视觉)上的相似性值。每个矩阵元素代表原型与输入序列特定时间片段之间的相似性。相似性分数量化了每个时间片段与模型学习到的原型模式的对齐程度。
案例研究进一步证明了MMPNet的全面模态级可解释性。如图7所示,分析了一个说话者以中性语调讨论IRA贡献的视频片段。文本模态显示比消极情感(0.510)更强的积极情感(0.715),而视觉特征表明稍微更强的消极情感(0.5807对0.5234)。以中性和平静声音为特征的声学特征显示出平衡的贡献。多模态整合(zvg|ztg|zag)展示了增强的判别能力,具有明显区分的积极(1.3717)和消极(1.1084)情感分数,突出了MMPNet基于原型的融合机制的有效性。
超参数分析
原型数量(K)是MMPNet中的一个关键超参数,因为它决定了模型捕获不同时间多模态模式的能力。实验结果显示,当K从10增加到40时,性能显著提高,表明更大的原型集使模型能够捕获更细微的情感模式。然而,当K超过40时,性能开始下降,可能是因为模型试图学习过于细粒度的区别,而这些区别可能无法很好地推广到未见数据。
研究结论表明,MMPNet成功解决了多模态情感分析中可解释性空白的问题,超越了传统的模态级可解释性,将时间动态纳入其中。基于ProtoPNet框架构建的MMPNet提供了双重可解释性,识别每个模态内的重要时间片段,同时量化不同模态在最终预测中的相对重要性。
MMPNet框架的灵活设计允许扩展到其他模态,并适应类似的多模态分析任务。尽管取得了这些进展,但几个局限性激发了未来的研究。首先,与原始ProtoPNet不同,由于时间多模态数据固有的复杂性,MMPNet无法从学习的原型生成重建可视化。其次,当前的架构是专门为分类任务设计的,限制了其在情感计算中常见的回归问题中的应用。
这项研究的重要意义在于为多模态情感分析领域提供了一种新的可解释性范式,将原型学习机制成功应用于多模态时序数据处理,实现了在保持高性能的同时提供时间级和模态级双重可解释性,为可解释人工智能在多模态情感分析领域的实际应用奠定了重要基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号