S3 Agent:利用VLLM的力量实现零样本多模态讽刺检测

《ACM Transactions on Multimedia Computing, Communications, and Applications》:S3 Agent: Unlocking the Power of VLLM for Zero-Shot Multi-modal Sarcasm Detection

【字体: 时间:2025年11月08日 来源:ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐:

  多模态反讽检测研究提出基于视觉大语言模型的S3 Agent框架,通过表面表达、语义信息和情感表达三视角分析,在MMSD2.0数据集上实现13.2%的准确率提升,并验证文本检测有效性。

  

摘要

多模态讽刺检测旨在通过分析潜在的情感来判断给定的多模态输入是否表达了讽刺意图。近期,视觉大型语言模型在多种多模态任务中取得了显著的成功。受此启发,我们系统地研究了视觉大型语言模型在零样本多模态讽刺检测任务中的影响。此外,为了捕捉讽刺表达的不同视角,我们提出了一个多视图代理框架S3 Agent,该框架通过利用三个关键视角——表面表达语义信息情感表达——来提升零样本多模态讽刺检测的能力。我们在MMSD2.0数据集上进行了实验,该数据集涉及六个模型和四种提示策略,实验结果表明我们的方法达到了行业领先的性能水平。我们的方法平均提升了13.2%的准确率。此外,我们还在仅文本的讽刺检测任务上对方法进行了评估,结果也超过了基线方法。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号