
-
生物通官微
陪你抓住生命科技
跳动的脉搏
针对大型语言模型的快速且可控的偏置引导越狱攻击
《IEEE Internet of Things Journal》:Fast and Controllable Bias-Guided Jailbreak Attack on Large Language Models
【字体: 大 中 小 】 时间:2025年12月12日 来源:IEEE Internet of Things Journal 8.9
编辑推荐:
大语言模型(LLMs)部署在边缘设备面临jailbreak攻击威胁,易生成不安全内容。针对现有攻击方案效率低、隐蔽性差的问题,提出FCB攻击方案:通过优化输出层偏置加速攻击,结合令牌停止选择和偏见归一化增强隐蔽性,实验表明FCB攻击成功率提升8%,困惑度降低181.171,生成时间缩短28秒。
随着应用场景的多样化和环境不确定性的增加,用户对边缘设备提出了越来越复杂的功能需求。因此,边缘设备必须拥有更智能的模型来处理数据、做出决策并管理任务调度,以有效服务于用户。大型语言模型(LLMs)凭借其出色的自然语言理解和生成能力[1],在任务执行过程中为边缘设备提供更智能的指令支持,从而有效提升其智能处理能力。例如,语音助手会转录用户的语音,并依赖LLMs来理解其含义,从而生成相应的指令。客户服务机器人可以利用LLMs来识别客户意图并制定适当的响应策略。然而,由于LLMs存在固有的安全问题,在边缘设备上部署它们面临许多安全挑战。其中,越狱攻击尤其令人担忧,因为它们可以绕过LLMs的安全对齐机制,可能导致模型生成敏感信息、不当指令或违反安全政策的内容。对越狱攻击的研究不仅揭示了LLMs安全机制中的漏洞,也为开发更有针对性的防御策略奠定了基础,使其成为边缘设备部署LLMs时的一个关键安全问题。
生物通微信公众号
知名企业招聘