"休眠密钥:揭示文本到图像模型中的通用对抗控制漏洞及其安全防御启示"

【字体: 时间:2025年09月05日 来源:Neural Networks 6.3

编辑推荐:

  本文揭示了文本到图像(T2I)扩散模型存在的重大安全隐患,提出创新性"休眠密钥"(Dormant Key)攻击框架。通过层级梯度聚合策略,该方法能在任意文本后附加通用对抗后缀(如NSFW内容),成功绕过关键词过滤、语义分析等多重安全机制,攻击成功率较基线提升18%,为AI内容安全领域(如Stable Diffusion、CLIP模型)提供重要警示。

  

亮点

本研究首次提出"休眠密钥"这一革命性概念——如同在AI系统中植入隐秘开关,仅需在任意文本后附加特定后缀(如"apple"→暴力图像),即可系统性操控Stable Diffusionv1.4等主流模型的输出结果。

威胁模型

攻击者通过精心设计的文本扰动(如"风景画"+"对抗后缀"→成人内容),可突破商业平台的三重防线:1)基于关键词的黑名单过滤;2)CLIP(ViT-L/14)语义分析;3)深度文本分类器。

模型配置

实验采用与SD相同的CLIP文本编码器,在512×512分辨率下进行50步推理。关键创新在于"双层级梯度聚合":先在mini-batch内优化对抗后缀,再跨批次融合不同提示词(如"建筑""动物")的梯度,最终锻造出可移植到任意输入的"万能密钥"。

结论

休眠密钥在NSFW生成任务中展现出惊人的普适性,其攻击成功率较传统方法提升18%,同时保持15%的隐蔽性优势。这项工作为AI安全领域敲响警钟,揭示了现有防御体系在对抗性提示词面前的脆弱性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号