通过组合式指令和隐藏攻击欺骗大型语言模型（LLM）

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Autonomous and Adaptive Systems》：Deceiving LLM through Compositional Instruction with Hidden Attacks

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Autonomous and Adaptive Systems

编辑推荐：

　　提出Compositional Instruction Attack（CIA）框架及攻击方法，构建CIAQA数据集，揭示LLMs防御漏洞，并设计意图识别防御IBD，实验表明IBD可将攻击成功率降低74%+。

摘要

近年来，大型语言模型（LLMs）在自动驾驶（AD）领域展现出了广阔的应用前景，包括基于语言的交互和决策制定。在正式部署之前，确保它们能够安全地处理有害输入至关重要。然而，研究发现了一些新的手工制作的“越狱”攻击手段，这些攻击将有害指令伪装成无害的提示，从而绕过LLMs的安全机制并引发有害反应。为了深入理解这类攻击，本文提出了一种“组合指令攻击”（Compositional Instruction Attack, CIA）框架来对它们进行概括，并开发了两种CIA攻击方法，能够自动生成针对每个有害指令的定制化“越狱”提示。随后，本文构建了首个CIA问答（CIAQA）数据集，其中包含2700道多选题和900次成功的“越狱”案例，用于评估LLMs识别潜在有害意图、危害程度以及任务优先级的能力。通过对CIAQA及其他数据集的实验分析，本文总结了LLMs防御CIA攻击失败的三个可能原因。最后，我们提出了一种基于意图的防御机制（Intent-Based Defense, IBD），利用LLMs识别意图的能力来对其进行防御。实验结果表明，在自动驾驶和常见有害场景中，CIA攻击的成功率（ASR）可达到95%以上（针对GPT-4、GPT-3.5和Llama2-70b-chat三个知名LLMs），而IBD机制可将攻击成功率降低74%以上。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号