利用大型多模态模型进行讽刺语检测的线索与上下文融合方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Intelligent Systems and Technology》：Clue and Context Fusion for Sarcasm Detection with Large Multimodal Models

【字体：大中小】 时间：2026年02月16日 来源：ACM Transactions on Intelligent Systems and Technology

编辑推荐：

　　多模态反讽检测框架SCARF通过标签约束问答提取场景级与局部级矛盾证据，融合视觉特征与文本线索生成控制向量，结合示范检索与多视图编码优化模型对反讽的识别能力，在MMSD2.0和XDMSD上准确率分别达87.92%和77.14%，显著优于基线模型。

摘要

在社交媒体中检测讽刺与一般的视觉语言模型（VLM）基准测试有本质的不同：这是一个实际矛盾问题，其中一种模态中的字面信号与预期含义故意不一致，而主流的预训练方法（例如 CLIP 风格的对比一致性）使模型倾向于模态对齐而非不一致性检测。我们提出了 SCARF，这是一个具有矛盾感知能力的框架，它为大型多模态模型提供了明确的讽刺线索和上下文敏感的检索功能。SCARF 通过标签约束的问答（QA）构建粗略的场景线索和精细的局部证据，然后利用视觉标记将这些线索融合成一个 [FUSION] 控制向量供大型语言模型（LLM）使用；标签对比检索器提供类型和上下文匹配的示例，而局部多视图编码器则揭示微观线索。使用相同的模型架构和训练数据，SCARF 在 MMSD2.0 上的准确率为 87.92%/F1 分数为 86.67%，在 XDMSD 上的准确率为 77.14%/F1 分数为 76.44%，性能超过了经过类似微调的 LLaVA-1.5。消融实验表明，讽刺线索的融合是性能提升的主要驱动力，而标签约束的问答有助于增强推理的合理性并减少误解。

AI 摘要

AI 生成的摘要（实验性）

此摘要是使用自动化工具生成的，并非由文章作者编写或审核。它旨在帮助读者发现研究内容、评估其相关性，并协助来自相关研究领域的读者理解该工作。它是对作者提供的摘要的补充，后者仍是论文的官方摘要。完整文章才是权威版本。点击此处了解更多。

点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。

AI 生成的摘要

该摘要由基于已发表文章文本的自动化系统生成。

版本创建于 2026 年 1 月 27 日。

本文探讨了在多模态社交媒体内容中检测讽刺的挑战，其中文本和图像经常表现出故意的矛盾。传统的视觉-语言模型经过训练以对齐视觉和文本输入，但由于它们更注重模态一致性而非矛盾性，因此在检测这种不一致性时存在困难。为了解决这个问题，作者提出了一个名为 SCARF 的框架，该框架明确结合了讽刺线索和上下文信息以提高检测准确性。

SCARF 通过基于图像中检测到的对象和属性的标签约束问答提取粗略的场景级描述和精细的局部证据。这些文本线索与视觉特征通过专门的“讽刺线索融合”模块进行嵌入和融合，形成一个紧凑的向量，作为大型多模态语言模型的控制输入。此外，“演示检索”模块从精心策划的数据库中提供上下文敏感的、标签对比的示例，以进一步指导模型的推理。“局部多视图编码器”捕捉详细的视觉微观线索，例如经常引发讽刺的小文本或图标。

该方法在 MMSD2.0（一个多模态讽刺检测数据集）和 XDMSD（一个反映多样化社交媒体文化背景的领域外基准数据集）上进行了测试。实验表明，SCARF 的性能优于使用相同模型架构的强基线实现，具有更高的准确率和更好的校准效果。消融研究显示，“讽刺线索融合”是性能提升的主要因素，标签对比示例的检索有助于解决模糊情况，而局部多视图编码在讽刺依赖于微妙视觉细节时有助于检测。

作者通过 MMSD-Reason 扩展了 MMSD2.0，这是一个包含基于图像的、经过人类审核的讽刺案例解释的资源库，使模型能够生成可解释的推理，并在推理过程中减少误解。使用标签约束的问答而非自由形式的问答，通过将声明基于具体的图像元素进行定位，从而提高了解释的可靠性。两阶段训练策略首先对齐视觉和文本特征，然后对整个模型进行微调，以实现讽刺分类和解释生成。

总体而言，该研究表明，通过结构化的线索提取、融合控制向量和上下文敏感的检索来明确建模矛盾，可以超越传统的以对齐为中心的方法，提高多模态讽刺检测能力。这种基于原则的设计有效地利用了大型视觉-语言模型，同时解决了讽刺所带来的独特实际挑战。剩余的错误主要源于特定文化的知识空白或解释非常小或风格化视觉文本的难度，这为未来的研究指明了方向。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号