通过组合式指令和隐藏攻击欺骗大型语言模型(LLM)

《ACM Transactions on Autonomous and Adaptive Systems》:Deceiving LLM through Compositional Instruction with Hidden Attacks

【字体: 时间:2025年11月08日 来源:ACM Transactions on Autonomous and Adaptive Systems

编辑推荐:

  提出Compositional Instruction Attack(CIA)框架及攻击方法,构建CIAQA数据集,揭示LLMs防御漏洞,并设计意图识别防御IBD,实验表明IBD可将攻击成功率降低74%+。

  

摘要

近年来,大型语言模型(LLMs)在自动驾驶(AD)领域展现出了广阔的应用前景,包括基于语言的交互和决策制定。在正式部署之前,确保它们能够安全地处理有害输入至关重要。然而,研究发现了一些新的手工制作的“越狱”攻击手段,这些攻击将有害指令伪装成无害的提示,从而绕过LLMs的安全机制并引发有害反应。为了深入理解这类攻击,本文提出了一种“组合指令攻击”(Compositional Instruction Attack, CIA)框架来对它们进行概括,并开发了两种CIA攻击方法,能够自动生成针对每个有害指令的定制化“越狱”提示。随后,本文构建了首个CIA问答(CIAQA)数据集,其中包含2700道多选题和900次成功的“越狱”案例,用于评估LLMs识别潜在有害意图、危害程度以及任务优先级的能力。通过对CIAQA及其他数据集的实验分析,本文总结了LLMs防御CIA攻击失败的三个可能原因。最后,我们提出了一种基于意图的防御机制(Intent-Based Defense, IBD),利用LLMs识别意图的能力来对其进行防御。实验结果表明,在自动驾驶和常见有害场景中,CIA攻击的成功率(ASR)可达到95%以上(针对GPT-4、GPT-3.5和Llama2-70b-chat三个知名LLMs),而IBD机制可将攻击成功率降低74%以上。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号