GOAT-Bench：通过基于模因的社交滥用行为洞察大型多模态模型的安全性问题

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Intelligent Systems and Technology》：GOAT-Bench: Safety Insights to Large Multimodal Models through Meme-Based Social Abuse

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Intelligent Systems and Technology

编辑推荐：

　　社交媒体模因滥用问题凸显，本研究构建GOAT-Bench基准（含6K+模因），评估GPT-4V、LLaVA、Qwen-VL等大模态模型对隐含仇恨、性别歧视等有害内容的识别能力，发现模型安全意识不足，亟需改进以推动安全AI发展。

摘要

社交媒体的指数级增长深刻改变了信息的创建、传播和吸收方式，这种变化在数字时代是前所未有的。遗憾的是，这种爆发也导致了网络中对模因（meme）的滥用现象显著增加。由于模因往往具有微妙且隐含的含义，而这些含义并未通过文字和图像直接表达出来，因此评估其负面影响颇具挑战性。鉴于此，大型多模态模型（LMMs）因其在处理多种多模态任务方面的出色能力而成为研究重点。本文旨在全面探讨各种LMM（如GPT-4V、LLaVA和Qwen-VL）识别和应对模因中所体现的社交滥用行为的能力。我们推出了一个名为GOAT-Bench的综合性模因评估基准，其中包含了超过6000个涵盖隐性仇恨言论、性别歧视和网络欺凌等主题的模因。通过使用GOAT-Bench，我们研究了LMMs准确评估仇恨言论、厌女症、攻击性、讽刺以及有害内容的能力。我们在多种LMM上的广泛实验表明，当前模型在安全意识方面仍存在不足，对各种形式的隐性滥用行为缺乏敏感度。我们认为这一缺陷是实现安全人工智能的关键障碍。GOAT-Bench及其相关资源可在https://goatlmm.github.io/公开获取，为这一重要领域的研究做出了贡献。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号