
-
生物通官微
陪你抓住生命科技
跳动的脉搏
利用大型多模态模型进行讽刺语检测的线索与上下文融合方法
《ACM Transactions on Intelligent Systems and Technology》:Clue and Context Fusion for Sarcasm Detection with Large Multimodal Models
【字体: 大 中 小 】 时间:2026年02月16日 来源:ACM Transactions on Intelligent Systems and Technology
编辑推荐:
多模态反讽检测框架SCARF通过标签约束问答提取场景级与局部级矛盾证据,融合视觉特征与文本线索生成控制向量,结合示范检索与多视图编码优化模型对反讽的识别能力,在MMSD2.0和XDMSD上准确率分别达87.92%和77.14%,显著优于基线模型。
此摘要是使用自动化工具生成的,并非由文章作者编写或审核。它旨在帮助读者发现研究内容、评估其相关性,并协助来自相关研究领域的读者理解该工作。它是对作者提供的摘要的补充,后者仍是论文的官方摘要。完整文章才是权威版本。点击此处了解更多。
点击 此处 对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。
AI 生成的摘要
该摘要由基于已发表文章文本的自动化系统生成。
版本创建于 2026 年 1 月 27 日。
本文探讨了在多模态社交媒体内容中检测讽刺的挑战,其中文本和图像经常表现出故意的矛盾。传统的视觉-语言模型经过训练以对齐视觉和文本输入,但由于它们更注重模态一致性而非矛盾性,因此在检测这种不一致性时存在困难。为了解决这个问题,作者提出了一个名为 SCARF 的框架,该框架明确结合了讽刺线索和上下文信息以提高检测准确性。
SCARF 通过基于图像中检测到的对象和属性的标签约束问答提取粗略的场景级描述和精细的局部证据。这些文本线索与视觉特征通过专门的“讽刺线索融合”模块进行嵌入和融合,形成一个紧凑的向量,作为大型多模态语言模型的控制输入。此外,“演示检索”模块从精心策划的数据库中提供上下文敏感的、标签对比的示例,以进一步指导模型的推理。“局部多视图编码器”捕捉详细的视觉微观线索,例如经常引发讽刺的小文本或图标。
该方法在 MMSD2.0(一个多模态讽刺检测数据集)和 XDMSD(一个反映多样化社交媒体文化背景的领域外基准数据集)上进行了测试。实验表明,SCARF 的性能优于使用相同模型架构的强基线实现,具有更高的准确率和更好的校准效果。消融研究显示,“讽刺线索融合”是性能提升的主要因素,标签对比示例的检索有助于解决模糊情况,而局部多视图编码在讽刺依赖于微妙视觉细节时有助于检测。
作者通过 MMSD-Reason 扩展了 MMSD2.0,这是一个包含基于图像的、经过人类审核的讽刺案例解释的资源库,使模型能够生成可解释的推理,并在推理过程中减少误解。使用标签约束的问答而非自由形式的问答,通过将声明基于具体的图像元素进行定位,从而提高了解释的可靠性。两阶段训练策略首先对齐视觉和文本特征,然后对整个模型进行微调,以实现讽刺分类和解释生成。
总体而言,该研究表明,通过结构化的线索提取、融合控制向量和上下文敏感的检索来明确建模矛盾,可以超越传统的以对齐为中心的方法,提高多模态讽刺检测能力。这种基于原则的设计有效地利用了大型视觉-语言模型,同时解决了讽刺所带来的独特实际挑战。剩余的错误主要源于特定文化的知识空白或解释非常小或风格化视觉文本的难度,这为未来的研究指明了方向。