
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于差分隐私的大语言模型高效遗忘框架DP2Unlearning:一种兼顾性能保障与计算成本的新方法
《Neural Networks》:DP2Unlearning: An Efficient and Guaranteed Unlearning Framework for LLMs
【字体: 大 中 小 】 时间:2025年07月19日 来源:Neural Networks 6.0
编辑推荐:
为解决大语言模型(LLM)在隐私保护和版权合规方面面临的挑战,研究人员提出了一种基于差分隐私(DP)的创新型遗忘框架DP2Unlearning。该研究通过DP-MLM(差分隐私掩码语言模型)和DP-SGD(差分隐私随机梯度下降)两种技术路径,在保证ε-DP遗忘强度的前提下,将计算成本降低至传统重训练方法的50%,同时维持模型效用(utility)与黄金标准RFS-R(基于保留数据的完全重训练)相当。这项工作为GDPR"被遗忘权"和CCPA合规要求提供了可验证的技术解决方案,标志着LLM治理领域的重要突破。
在人工智能技术突飞猛进的今天,大语言模型(LLM)如GPT系列、Llama等已展现出惊人的文本生成和理解能力。然而这些模型在训练过程中会"记忆"训练数据中的敏感信息,包括个人隐私数据(如电话号码、地址)和受版权保护内容(如文学作品片段)。当模型在推理阶段输出这些信息时,不仅可能违反欧盟《通用数据保护条例》(GDPR)的"被遗忘权"(Right to Be Forgotten, RTBF)和美国《加州消费者隐私法案》(CCPA),更可能引发严重的法律纠纷。传统解决方案是完全重训练模型(Retraining from Scratch on Retained data, RFS-R),但这对参数量达数十亿的LLM而言,单次训练就可能消耗数百万美元的计算资源。
针对这一困境,研究人员创新性地将差分隐私(Differential Privacy, DP)这一隐私保护框架引入LLM训练流程,提出了DP2Unlearning解决方案。该框架通过两种技术路径实现:DP-SGD在模型参数更新时注入噪声并裁剪梯度;DP-MLM则直接在文本数据层面对敏感名词短语进行ε-DP保护的替换。实验采用Phi-1.5B和Llama2-7B模型,在TOFU基准数据集上验证显示,仅需传统方法50%的计算成本,就能达到与RFS-R相当的遗忘效果(KS检验p值>0.05),同时保持ROUGE-L评分>0.9的模型效用。
关键技术方法包括:1)基于ε-DP的两种保护机制(DP-SGD和DP-MLM)构建基础模型;2)三阶段训练流程(基础模型训练、全数据微调、遗忘执行);3)采用ROUGE-L、条件概率(CP)和真实率(TR)等多维度评估指标;4)通过Kolmogorov-Smirnov检验量化遗忘质量。研究特别设计了1%-10%不同遗忘比例的比较实验,并引入Jensen-Shannon散度等补充指标验证结果可靠性。
研究结果显示:
在讨论部分,作者指出DP2Unlearning的创新性在于将"预防性保护"(DP)与"补救性遗忘"机制结合,通过一次性投入构建DP保护的基础模型,使后续每个遗忘请求的处理成本降低50-80%。这项工作不仅解决了LLM领域"记忆-遗忘"的悖论,更建立了首个可验证的遗忘保障框架。未来研究方向包括:1)将框架扩展至图像生成模型;2)探索k-匿名性等替代隐私框架;3)优化DP-MLM在低ε值下的语义保持能力。该成果发表于《Neural Networks》,为AI伦理治理提供了重要的技术基准。
生物通微信公众号