大型语言模型中安全且有效的微调后对齐方法

《Knowledge-Based Systems》:Safe and Effective Post-Fine-tuning Alignment in Large Language Models

【字体: 时间:2025年09月25日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  安全有效对齐框架SEA通过知识解耦和两阶段参数修剪,解决有害微调导致的安全与效用失衡问题,实验证明其在多模型上有效缓解安全风险同时保持高精度。

  
姜敏瑞|杨云宁|谢秀瑞|柯佩|刘桂松
中国电子科技大学智能协同计算实验室,成都,611731,中国

摘要

微调对于在各种应用中定制大型语言模型(LLMs)至关重要,但不可避免地会破坏模型的安全性对齐。现有的对齐方法能够应对有害微调的挑战,但往往会牺牲模型的实用性,从而导致下游任务的性能不佳。为了解决这个问题,我们从知识解耦的角度提出了一种安全且有效的微调后对齐方法(SEA)。SEA引入了一种新颖的两级剪枝过程,可以精确地移除有害功能。首先,我们提出了一种差异重要性评分机制,在参数层面识别有害路径;然后通过模块级分析来保护那些相互关联的模块,从而在安全性和实用性之间实现稳健的平衡。在Llama2、Gemma和Mistral上的实验结果表明,SEA在保持最佳微调准确性的同时,有效降低了安全风险。这项工作为解决LLMs有害微调带来的安全与性能之间的困境提供了实用的解决方案。

引言

随着大型语言模型(LLMs)的快速发展,越来越多的用户利用这些强大的模型来满足现实世界的各种需求和应用,包括内容创作、客户支持、科学研究和教育[1]、[2]、[3]。对定制化的需求不断增加,显著推动了微调技术的发展。目前,主流的监督式微调(SFT)方法主要涉及全参数微调和低秩适应(LoRA)[4]。
然而,通过微调来定制模型在确保LLMs的安全性对齐方面存在挑战。即使微调数据集中完全不含有害数据,微调仍不可避免地会破坏模型的安全性对齐,导致模型产生不安全或带有偏见的输出[5]。随着LLMs在需要高可靠性和可信度的应用中的使用日益增多,这一问题变得尤为关键。因此,研究如何应对有害微调攻击已成为一个紧迫的研究课题。
现有的缓解策略可以分为三类:对齐阶段防御、用户微调阶段防御和微调后阶段防御。这三类策略在图1中进行了说明。对齐阶段防御方法如Vaccine[6]和Booster[7]专注于在对齐阶段提高LLMs对有害微调数据的抵御能力。用户微调阶段防御方法如Lisa[8]和SaLoRA[9]在获取任务特定知识的同时保持对齐性。然而,当在微调阶段使用较高的学习率或大量的训练周期时,前两类方法的效果会大大降低[10]。
微调后阶段防御方法[11]、[12]可以在用户微调后恢复LLMs的安全性对齐,并且在不同微调超参数设置下仍然有效。一个显著的例子是Antidote[10],它通过移除被识别为有害的参数来消除有害行为。尽管这种方法提高了安全性,但往往会降低模型的实用性。我们认为这种限制源于其未能考虑一个关键因素:功能耦合。这些方法仅孤立地评估参数的危害性,无法区分那些纯粹有害的参数和那些对通用能力至关重要但被利用来产生有害输出的参数。因此,它们无差别的剪枝可能会显著降低模型的任务特定性能。
为了解决功能耦合这一挑战,我们提出了SEA(安全有效的对齐方法),该方法从知识解耦的角度出发。SEA不是简单地剪枝参数,而是首先分析模型的功能结构,以区分有害路径和通用路径。SEA引入了一种高效的两级剪枝过程,旨在精确地移除有害功能,同时保留必要的功能。首先,计算差异重要性评分来识别主要导致有害路径的参数;然后通过模块级分析来评估耦合程度,保护那些安全性和实用性相互交织的模块。
我们的主要贡献如下:
  • 我们提出了SEA,这是一种从知识解耦的角度出发的微调后对齐新框架,引入了差异重要性评分机制,用于精确移除有害功能。
  • 我们设计了一种基于风险意识的模块级剪枝策略,能够在模块层面评估功能耦合情况,从而精确地移除有害功能,同时保护对通用任务至关重要的模块。
  • 在多个LLMs上的广泛实验表明,我们的方法在显著提高模型安全性的同时保持了高性能,证明了我们这种基于原则的两级方法的有效性。
  • 部分内容摘录

    安全性对齐

    安全性对齐是LLMs开发中的一个关键方面,旨在确保模型输出符合用户意图、遵守安全约束并符合伦理标准。早期的技术主要依赖于人类反馈的强化学习(RLHF),其中人类注释者提供偏好信号,以使模型行为与安全性和实用性目标保持一致。虽然RLHF能有效减少有害输出,但它严重依赖人类监督,并可能导致

    方法

    最近的研究[27]、[29]、[32]表明,LLMs并不是单一的、统一的系统,而是表现出显著的功能专业化,即不同的能力编码在特定的参数集和神经路径中。例如,一些参数组被调整以确保安全性对齐,而其他参数组则用于存储任务特定知识。然而,有害的微调过程会破坏这种精细的架构,导致模型的安全性

    模型和数据集

    所提出的方法在三个主流预训练模型Llama2-7B、Mistral-7B和Gemma-7B上进行了评估。在默认设置中,我们使用Llama2-7B作为基础模型。我们的实验遵循三阶段流程,并使用了四个不同的数据集,这些数据集基于之前的研究[7]、[10]。在第一阶段(初始安全性对齐),我们使用了从BeaverTails[16]中抽取的数据集,其中包含有害提示和相应的安全答案(is_safe=True)。在第二阶段,模拟用户微调过程,

    结论

    在本文中,我们解决了有害微调攻击这一关键问题,即模型的安全性和实用性发生了功能耦合。我们提出了SEA(安全有效的对齐方法),这是一种基于功能专业化和知识解耦原则的微调后对齐新框架。与基于启发式的剪枝方法不同,我们的方法采用了一种原则性的两级处理方式。首先,使用差异重要性评分来

    CRediT作者贡献声明

    姜敏瑞:撰写——原始草稿、方法论、研究。杨云宁:撰写——审阅与编辑、可视化、验证。谢秀瑞:撰写——审阅与编辑、监督、资金获取。柯佩:撰写——审阅与编辑、验证、监督。刘桂松:监督、项目管理、资金获取。

    利益冲突声明

    作者声明他们没有已知的财务利益冲突或个人关系可能会影响本文的研究结果。

    致谢

    本研究得到了国家自然科学基金(NSFC)(项目编号62376228和62306064)和成都市科技计划(项目编号2023-JB00-00016-GX)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普
    • 急聘职位
    • 高薪职位

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号