基于ViT-BERT跨注意力多任务模型(CAMT)的表情包多模态分类研究及其在偏见检测中的应用

【字体: 时间:2025年09月13日 来源:Neural Networks 6.3

编辑推荐:

  本文提出了一种基于视觉-语言模型(ViT-BERT CAMT)的多任务表情包分类方法,通过线性自注意力融合机制(LSA)整合视觉变换器(ViT)和BERT特征,显著提升对情感(sentiment)、讽刺(sarcasm)、攻击性(offensiveness)及偏见(如性别歧视、物化)等多维度内容的识别性能,为在线内容审核与健康对话监测提供关键技术支撑。

  

Highlight

我们的ViT-BERT CAMT(跨注意力多任务)模型在多项表情包分类任务中表现卓越,尤其在识别情感极性、讽刺语义和攻击性内容方面显著优于现有基线模型。该模型通过融合视觉与文本特征,为复杂多模态语境下的语义解构提供了新范式。

Literature Review

当前表情包分析领域广泛采用多模态融合策略,例如ALFRED框架结合视觉与文本特征进行情绪分类,而MOMENTA模型则通过门控注意力机制优化图像-文本对齐。然而,现有方法在细粒度偏见(如性别歧视与物化)检测方面仍存在语义鸿沟。

Methodology

本研究采用端到端的多任务架构(图1),分别利用视觉变换器(ViT)提取图像特征,BERT编码文本信息,并通过线性自注意力层(LSA)实现跨模态特征交互。该设计使模型能够同步处理情感分类、讽刺识别和偏见检测等任务。

Datasets

实验基于两个权威数据集:SemEval 2020 Memotion(涵盖情感、讽刺与攻击性多标签标注)和MIMIC(专注于性别歧视、物化与偏见识别)。数据集的多样性与文化语境差异充分验证了模型的泛化能力。

Baseline Comparison

如表4所示,ViT-BERT CAMT在Memotion数据集上达到攻击性检测准确率90.68%(较BERT基线提升2.79%),讽刺识别F1值89.21%,情感分类宏F1值88.75%,全面超越CNN-LSTM、BERT-ResNet等融合模型。

Discussion

模型优势源于其能力捕获图像与文本间的隐含关联,例如通过视觉符号(如表情)与文字反讽的协同解读。但在模糊语境(如幽默与攻击性边界)中仍存在误判,凸显多模态语义歧义处理的挑战。

Limitations and Future Directions

当前模型计算复杂度较高(尤其ViT与BERT参数量大),且依赖精细超参数调优。未来工作将探索知识蒸馏与轻量化架构,并引入因果推理机制以增强模型可解释性。

Conclusions

ViT-BERT CAMT通过创新性的跨模态融合策略,为多任务表情包分析提供了高效解决方案,尤其在偏见内容监测方面具有重要应用价值,为构建更安全的网络对话环境奠定技术基础。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号