通过组合式指令和隐藏攻击欺骗大型语言模型(LLM)
《ACM Transactions on Autonomous and Adaptive Systems》:Deceiving LLM through Compositional Instruction with Hidden Attacks
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Autonomous and Adaptive Systems
编辑推荐:
提出Compositional Instruction Attack(CIA)框架及攻击方法,构建CIAQA数据集,揭示LLMs防御漏洞,并设计意图识别防御IBD,实验表明IBD可将攻击成功率降低74%+。
摘要
近年来,大型语言模型(LLMs)在自动驾驶(AD)领域展现出了广阔的应用前景,包括基于语言的交互和决策制定。在正式部署之前,确保它们能够安全地处理有害输入至关重要。然而,研究发现了一些新的手工制作的“越狱”攻击手段,这些攻击将有害指令伪装成无害的提示,从而绕过LLMs的安全机制并引发有害反应。为了深入理解这类攻击,本文提出了一种“组合指令攻击”(Compositional Instruction Attack, CIA)框架来对它们进行概括,并开发了两种CIA攻击方法,能够自动生成针对每个有害指令的定制化“越狱”提示。随后,本文构建了首个CIA问答(CIAQA)数据集,其中包含2700道多选题和900次成功的“越狱”案例,用于评估LLMs识别潜在有害意图、危害程度以及任务优先级的能力。通过对CIAQA及其他数据集的实验分析,本文总结了LLMs防御CIA攻击失败的三个可能原因。最后,我们提出了一种基于意图的防御机制(Intent-Based Defense, IBD),利用LLMs识别意图的能力来对其进行防御。实验结果表明,在自动驾驶和常见有害场景中,CIA攻击的成功率(ASR)可达到95%以上(针对GPT-4、GPT-3.5和Llama2-70b-chat三个知名LLMs),而IBD机制可将攻击成功率降低74%以上。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号