针对大型语言模型的快速且可控的偏置引导越狱攻击

《IEEE Internet of Things Journal》:Fast and Controllable Bias-Guided Jailbreak Attack on Large Language Models

【字体: 时间:2025年12月12日 来源:IEEE Internet of Things Journal 8.9

编辑推荐:

  大语言模型(LLMs)部署在边缘设备面临jailbreak攻击威胁,易生成不安全内容。针对现有攻击方案效率低、隐蔽性差的问题,提出FCB攻击方案:通过优化输出层偏置加速攻击,结合令牌停止选择和偏见归一化增强隐蔽性,实验表明FCB攻击成功率提升8%,困惑度降低181.171,生成时间缩短28秒。

  

摘要:

大型语言模型(LLMs)凭借其强大的自然语言处理能力,可以为边缘设备提供更先进的智能服务。然而,在边缘设备上部署LLMs容易受到越狱攻击的影响,这种攻击可能导致模型生成不安全的内容。同时,现有的越狱攻击方案在生成高度隐蔽的越狱提示方面效率低下。为了解决这一问题,我们提出了一种快速且可控的基于偏置的越狱攻击(FCB)方案。首先,为了提高攻击效率,我们通过直接调整模型输出层的logits来优化模型输出层的偏置,从而引导模型生成低能量的越狱提示,加快解码过程。其次,为了增强生成越狱提示的隐蔽性,我们设计了令牌停止选择和偏置归一化方法,以限制迭代过程中的扰动,防止生成没有实际意义的越狱提示。最后,广泛的实验结果表明,FCB能够在短时间内生成高度隐蔽的越狱提示。具体来说,与当前最先进的可控攻击生成方案COLD Attack相比,FCB的攻击成功率提高了8%,困惑度降低了181.171,并将生成时间缩短了28秒。

引言

随着应用场景的多样化和环境不确定性的增加,用户对边缘设备提出了越来越复杂的功能需求。因此,边缘设备必须拥有更智能的模型来处理数据、做出决策并管理任务调度,以有效服务于用户。大型语言模型(LLMs)凭借其出色的自然语言理解和生成能力[1],在任务执行过程中为边缘设备提供更智能的指令支持,从而有效提升其智能处理能力。例如,语音助手会转录用户的语音,并依赖LLMs来理解其含义,从而生成相应的指令。客户服务机器人可以利用LLMs来识别客户意图并制定适当的响应策略。然而,由于LLMs存在固有的安全问题,在边缘设备上部署它们面临许多安全挑战。其中,越狱攻击尤其令人担忧,因为它们可以绕过LLMs的安全对齐机制,可能导致模型生成敏感信息、不当指令或违反安全政策的内容。对越狱攻击的研究不仅揭示了LLMs安全机制中的漏洞,也为开发更有针对性的防御策略奠定了基础,使其成为边缘设备部署LLMs时的一个关键安全问题。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号