多模态虚拟场景催眠攻击:视觉-语言模型的安全漏洞与防御启示

【字体: 时间:2025年09月06日 来源:Pattern Recognition 7.6

编辑推荐:

  这篇研究提出了一种创新的虚拟场景催眠(VSH)攻击方法,通过多模态提示注入(包括对抗性图像提示和加密上下文学习(ICL))成功破解LLaVA-v1.5-13B和GPT-4o mini等视觉-语言模型(VLMs),攻击成功率高达82%。研究揭示了VLMs在跨模态安全对齐中的固有缺陷,为构建防御性AI框架提供了重要基准。

  

Highlight

本研究揭示了视觉-语言模型(VLMs)在跨模态安全对齐中的关键漏洞。通过创新的虚拟场景催眠(VSH)框架,我们成功实现了对LLaVA和GPT-4o系列模型的高效破解,这一发现为下一代防御性AI系统的设计提供了重要启示。

Methodology

威胁模型

我们采用严格的黑盒攻击设定,无需梯度计算或辅助模型。攻击策略基于三个核心机制:

  1. 1.

    叙事催眠:将恶意查询嵌入虚构剧本(如福尔摩斯叙事)来绕过安全过滤器

  2. 2.

    对抗视觉编码:通过优化排版参数(字体、对比度、断行)生成机器可读但能逃避文本扫描的对抗图像

  3. 3.

    加密上下文学习(ICL):利用Unicode转换保留语义但规避表面检测

Experimental setup

数据集:采用SafeBench数据集,包含OpenAI和Llama-2政策禁止的10个主题共500个样本

VLMs测试对象:LLaVA-v1.5-13B和GPT-4o mini等代表性模型

超参数n的影响

实验表明,重复查询次数n的增加会显著提高破解成功率(见图6)。这揭示了VLMs在连续查询中安全防护的衰减特性,为防御机制优化提供了量化依据。

Conclusion

VSH方法通过催眠提示、加密-ICL增强和空间优化的破解可视化,在LLaVA-v1.5-13B和GPT-4o mini上分别实现82.6%和89.0%的有害输出率。该研究不仅暴露了VLMs的安全缺陷,更为构建下一代多模态防御系统建立了基准框架。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号