跨模态交互与多视角错位网络:基于情感冲突的多模态讽刺检测新范式

【字体: 时间:2025年06月26日 来源:Neurocomputing 5.5

编辑推荐:

  针对多模态讽刺检测(MSD)中异质模态融合困难、情感建模不足及错位特征量化不精确等问题,合肥工业大学团队提出CIMMN模型。该研究通过中介特征跨模态共注意力(FCA)平衡交互效率,利用提示工程生成结构化图像描述,结合图注意力网络(GAT)提取深度情感特征,并创新性采用最优传输理论中的Earth Mover's Distance(EMD)三视角量化模态错位。实验表明其在MMSD等数据集上超越现有方法,为构建智能可信的数字环境提供新工具。

  

在社交媒体爆炸式发展的今天,讽刺表达已从单纯的文字游戏升级为融合图文的多模态艺术。这种通过表面赞美实则贬损的修辞手法,常隐藏着文本与图像间的语义矛盾或情感反转(Polarity Reversal)。尽管讽刺检测对品牌管理、舆情监控和心理健康预警至关重要,但现有方法面临三重困境:异质模态如文本与图像难以深度融合;视觉情感特征提取粗糙;传统相似度度量无法捕捉情感冲突本质。

合肥工业大学的研究团队在《Neurocomputing》发表的研究中,构建了跨模态交互与多视角错位网络(CIMMN)。该研究创新性地整合了三大技术模块:1) 采用中介特征跨模态共注意力(FCA Encoder)实现高效模态交互;2) 通过定制化提示(Prompt)驱动大型语言模型(LLM)生成结构化图像描述,结合外部情感知识库增强图注意力网络(GAT)的双模态情感建模;3) 基于最优运输理论设计三重Earth Mover's Distance(E3MD)模块,从语义偏差和情感冲突双维度量化模态错位。实验采用MMSD、Multibully等公开数据集验证性能。

【跨模态聚合交互模块(CAI)】
通过自适应模态内注意力层消除异质模态的分布差异,FCA编码器选择10%关键标记进行跨模态交互,使MMSD任务的计算复杂度降低46.7%。实验显示该模块在长文本-高分辨率图像配对场景下,较传统共注意力机制提升2.3%的F1值。

【内部情感感知模块(IEP)】
利用"描述图像中可能暗示讽刺的视觉元素"等定制提示,生成的图像描述较传统视觉特征在情感维度信息量提升58%。结合SenticNet等知识库构建的GAT网络,首次实现图像细粒度情感(如"困惑-0.32""轻蔑-0.67")的量化提取,弥补了视觉情感词典的空白。

【三重EMD错位检测(E3MD)】
通过文本-图像、文本-描述、图像-描述三组EMD计算,发现情感冲突特征对讽刺判别的贡献度达61.8%,显著高于纯语义特征(38.2%)。其中"表面积极文本+消极视觉线索"组合在Memotion数据集上呈现82.4%的讽刺识别率。

该研究突破性地将讽刺检测从语义匹配升级为情感冲突驱动范式。CIMMN在MMSD数据集上达到87.6%准确率,较基线模型提升6.2%。其价值在于:1) 提出的FCA机制为多模态大模型的高效交互提供新思路;2) 图像描述生成方法使视觉信息从辅助角色转变为独立情感载体;3) E3MD模块首次实现情感冲突的量化评估,为后续多模态虚假信息检测等任务开辟新路径。研究局限性在于未涵盖视频模态的动态情感分析,这将是团队未来的重点突破方向。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号