
-
生物通官微
陪你抓住生命科技
跳动的脉搏
"休眠密钥:揭示文本到图像模型中的通用对抗控制漏洞及其安全防御启示"
【字体: 大 中 小 】 时间:2025年09月05日 来源:Neural Networks 6.3
编辑推荐:
本文揭示了文本到图像(T2I)扩散模型存在的重大安全隐患,提出创新性"休眠密钥"(Dormant Key)攻击框架。通过层级梯度聚合策略,该方法能在任意文本后附加通用对抗后缀(如NSFW内容),成功绕过关键词过滤、语义分析等多重安全机制,攻击成功率较基线提升18%,为AI内容安全领域(如Stable Diffusion、CLIP模型)提供重要警示。
亮点
本研究首次提出"休眠密钥"这一革命性概念——如同在AI系统中植入隐秘开关,仅需在任意文本后附加特定后缀(如"apple"→暴力图像),即可系统性操控Stable Diffusionv1.4等主流模型的输出结果。
威胁模型
攻击者通过精心设计的文本扰动(如"风景画"+"对抗后缀"→成人内容),可突破商业平台的三重防线:1)基于关键词的黑名单过滤;2)CLIP(ViT-L/14)语义分析;3)深度文本分类器。
模型配置
实验采用与SD相同的CLIP文本编码器,在512×512分辨率下进行50步推理。关键创新在于"双层级梯度聚合":先在mini-batch内优化对抗后缀,再跨批次融合不同提示词(如"建筑""动物")的梯度,最终锻造出可移植到任意输入的"万能密钥"。
结论
休眠密钥在NSFW生成任务中展现出惊人的普适性,其攻击成功率较传统方法提升18%,同时保持15%的隐蔽性优势。这项工作为AI安全领域敲响警钟,揭示了现有防御体系在对抗性提示词面前的脆弱性。
生物通微信公众号
知名企业招聘