基于差分隐私的大语言模型高效遗忘框架DP2Unlearning：一种兼顾性能保障与计算成本的新方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：DP2Unlearning: An Efficient and Guaranteed Unlearning Framework for LLMs

【字体：大中小】 时间：2025年07月19日 来源：Neural Networks 6.0

编辑推荐：

　　为解决大语言模型(LLM)在隐私保护和版权合规方面面临的挑战，研究人员提出了一种基于差分隐私(DP)的创新型遗忘框架DP2Unlearning。该研究通过DP-MLM（差分隐私掩码语言模型）和DP-SGD（差分隐私随机梯度下降）两种技术路径，在保证ε-DP遗忘强度的前提下，将计算成本降低至传统重训练方法的50%，同时维持模型效用（utility）与黄金标准RFS-R（基于保留数据的完全重训练）相当。这项工作为GDPR"被遗忘权"和CCPA合规要求提供了可验证的技术解决方案，标志着LLM治理领域的重要突破。

在人工智能技术突飞猛进的今天，大语言模型(LLM)如GPT系列、Llama等已展现出惊人的文本生成和理解能力。然而这些模型在训练过程中会"记忆"训练数据中的敏感信息，包括个人隐私数据（如电话号码、地址）和受版权保护内容（如文学作品片段）。当模型在推理阶段输出这些信息时，不仅可能违反欧盟《通用数据保护条例》(GDPR)的"被遗忘权"(Right to Be Forgotten, RTBF)和美国《加州消费者隐私法案》(CCPA)，更可能引发严重的法律纠纷。传统解决方案是完全重训练模型（Retraining from Scratch on Retained data, RFS-R），但这对参数量达数十亿的LLM而言，单次训练就可能消耗数百万美元的计算资源。

针对这一困境，研究人员创新性地将差分隐私(Differential Privacy, DP)这一隐私保护框架引入LLM训练流程，提出了DP2Unlearning解决方案。该框架通过两种技术路径实现：DP-SGD在模型参数更新时注入噪声并裁剪梯度；DP-MLM则直接在文本数据层面对敏感名词短语进行ε-DP保护的替换。实验采用Phi-1.5B和Llama2-7B模型，在TOFU基准数据集上验证显示，仅需传统方法50%的计算成本，就能达到与RFS-R相当的遗忘效果（KS检验p值>0.05），同时保持ROUGE-L评分>0.9的模型效用。

关键技术方法包括：1）基于ε-DP的两种保护机制（DP-SGD和DP-MLM）构建基础模型；2）三阶段训练流程（基础模型训练、全数据微调、遗忘执行）；3）采用ROUGE-L、条件概率(CP)和真实率(TR)等多维度评估指标；4）通过Kolmogorov-Smirnov检验量化遗忘质量。研究特别设计了1%-10%不同遗忘比例的比较实验，并引入Jensen-Shannon散度等补充指标验证结果可靠性。

研究结果显示：

隐私预算ε的选择：证实ε=1能在保护强度与模型效用间取得最佳平衡，当ε<1时DP-MLM对Llama2等大模型的效用损伤达23.4%，而ε>10则无法满足GDPR要求。
与近似遗忘方法的对比：梯度上升(GA)、梯度差异(GD)等传统方法在5%遗忘率下KS检验p值均<0.05，而DP2Unlearning达到0.9238（DP2U-MLM）和0.9878（DP2U-SGD）。
计算效率：DP2U-MLM处理Llama2的单个遗忘请求仅需45分钟，较RFS-R节省54%时间；在Phi-1.5B上仅用2个epoch即可超越所有基线方法。
实际生成效果：如表5所示，对于"作者父母职业"的查询，DP2U方法生成"职业治疗师和儿科医生"等合理但不泄露原始训练数据的回答，而GA方法输出无意义字符。

在讨论部分，作者指出DP2Unlearning的创新性在于将"预防性保护"（DP）与"补救性遗忘"机制结合，通过一次性投入构建DP保护的基础模型，使后续每个遗忘请求的处理成本降低50-80%。这项工作不仅解决了LLM领域"记忆-遗忘"的悖论，更建立了首个可验证的遗忘保障框架。未来研究方向包括：1）将框架扩展至图像生成模型；2）探索k-匿名性等替代隐私框架；3）优化DP-MLM在低ε值下的语义保持能力。该成果发表于《Neural Networks》，为AI伦理治理提供了重要的技术基准。

联系信箱：

粤ICP备09063491号

热点排行