纽约大学一项研究指出目前最新方法的错误：阻止文本到图像的人工智能模型生成非法内容

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2024年03月15日 来源：AAAS

编辑推荐：

　　在将于2024年5月7日至11日在维也纳举行的第十二届国际学习表征会议(ICLR)上发表的一篇论文中，纽约大学坦顿大学的一个研究小组展示了如何通过简单的攻击绕过声称“消除”模型(如稳定扩散)生成明确的、受版权保护的或其他不安全的视觉内容的能力的技术。

纽约大学坦顿工程学院(NYU Tandon School of Engineering)的研究人员揭示了最近提出的方法的关键缺陷，这些方法旨在使强大的文本到图像生成人工智能系统更安全地供公众使用。

在将于2024年5月7日至11日在维也纳举行的第十二届国际学习表征会议(ICLR)上发表的一篇论文中，研究团队展示了如何通过简单的攻击绕过声称“消除”稳定扩散等模型生成明确的、受版权保护的或其他不安全的视觉内容的能力的技术。

Stable Diffusion是一个公开可用的AI系统，可以通过文本描述创建高度逼真的图像。研究中生成的图像示例在GitHub上。

该论文的主要作者、纽约大学坦顿电子与计算机工程系和计算机科学与工程系的副教授Chinmay Hegde说:“文本到图像模型凭借其从文本描述创造几乎任何视觉场景的能力席卷了世界。”“但这为人们制作和传播逼真的图像打开了大门，这些图像可能具有很强的操纵性、冒犯性，甚至是非法的，包括名人深度伪造或侵犯版权的图像。”

研究人员调查了七种最新的概念删除方法，并演示了如何使用“概念反转”攻击绕过过滤器。

通过学习特殊的词嵌入并提供它们作为输入，研究人员可以成功地触发稳定扩散，以重建清理旨在消除的概念，包括仇恨符号、商标物品或名人肖像。事实上，该团队的反转攻击几乎可以重建原始稳定扩散模型能够重建的任何不安全图像，尽管声称这些概念已被“删除”。

这些方法似乎在执行简单的输入过滤，而不是真正地去除不安全的知识表示。攻击者可能会在公开发布的净化模型上使用这些相同的概念反转提示来生成有害或非法的内容。

研究结果引发了人们对过早部署这些消毒方法作为强大的生成式人工智能的安全解决方案的担忧。

Hegde说:“要使文本到图像的生成人工智能模型无法创建糟糕的内容，就需要改变模型训练本身，而不是依赖于事后修复。”“我们的研究表明，布拉德·皮特(Brad Pitt)不太可能成功地要求现代人工智能‘忘记’他的外表。一旦这些人工智能模型可靠地学习了概念，几乎不可能从它们身上完全去除任何一个概念。”

根据Hegde的说法，研究还表明，所提出的概念擦除方法不仅必须在一般样本上进行评估，而且必须在评估过程中明确地针对对抗性概念反转攻击进行评估。

这篇论文是Hegde的最新研究成果，他的工作重点是开发人工智能模型来解决成像、材料设计和运输等领域的问题，并找出当前模型的弱点。在最近的另一项研究中，Hegde和他的合作者透露，他们开发了一种人工智能技术，可以改变图像中一个人的表观年龄，同时保持其独特的识别特征，这是标准人工智能模型向前迈出的重要一步，标准人工智能模型可以使人看起来更年轻或更老，但不能保留他们的个人生物识别信息。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号