编辑推荐:
在联邦学习(FL)中,梯度传输存在隐私泄露风险,差分隐私(DP)虽能增强隐私保护,但会降低模型精度,且现有隐私损失评估缺乏直观性。研究人员设计评估方法,研究 DP 与重构攻击关系等。结果为 DP 设置提供指导,意义重大。
随着信息技术的飞速发展,大量数据不断被收集和存储,这为机器学习(ML)应用带来了巨大潜力。然而,数据中敏感信息的隐私问题也日益凸显。为了应对这一挑战,各国政府纷纷出台数据隐私相关法案,比如欧盟的《通用数据保护条例》(GDPR)。在这样的背景下,谷歌于 2016 年提出了联邦学习(FL),它让本地用户利用自己的私有数据训练模型,仅将模型更新(梯度)发送到中央服务器进行聚合,而非原始数据,以此保护个人数据隐私。
但理想很丰满,现实却很骨感。多项研究表明,联邦学习并非万无一失,依然存在隐私泄露风险。即使服务器和客户端都诚实地执行任务,服务器仍可能对梯度中的敏感信息充满好奇,进而引发重构攻击,从接收到的梯度中恢复敏感信息,比如真实图像、图像的真实标签等。为了给联邦学习的隐私保护再加一道 “锁”,同态加密(HE)和差分隐私(DP)等技术被引入。同态加密在实际应用中面临着恶意客户端与服务器勾结共享密钥以及加密梯度计算成本高昂的问题。差分隐私则是通过在梯度上添加人工噪声来增强隐私保护,不过,多次使用 DP 机制会导致隐私损失累积,而且梯度的随机化会降低联邦学习的精度。此外,现有的隐私损失衡量方法主要基于理论 DP 参数?和δ,难以直观反映实际应用中的隐私损失情况。因此,如何在保护隐私和保证模型精度之间找到平衡,以及开发更直观的隐私损失评估方法,成为亟待解决的问题。
为了解决这些难题,来自未知研究机构的研究人员开展了深入研究。他们聚焦于差分隐私下联邦学习(DPFL)的隐私损失评估,在《Future Generation Computer Systems》发表了相关研究成果。该研究意义非凡,不仅有助于深入理解 DP 在联邦学习中的作用机制,还能为实际应用中 DP 设置提供科学指导,在保护敏感数据的同时实现最佳效用。
研究人员采用了多种关键技术方法。首先,利用重构攻击算法,对添加 DP 噪声后的梯度进行攻击,通过对比原始图像和重构图像来分析隐私泄露情况。其次,基于重构攻击结果,提出一种新的量化隐私泄露的指标,从不同角度衡量隐私损失。此外,研究人员还对不同的梯度裁剪方法进行研究,分析其对隐私保护和学习性能的影响。
下面详细介绍研究结果:
- 重构攻击评估 DP 隐私保护效果:研究人员对 DPFL 的梯度开展重构攻击,即对添加了噪声的梯度进行攻击。为了量化隐私损失,他们提出了一种基于相似度的双因素方案。该方案通过比较原始图像和重构图像之间的相似度,来衡量隐私泄露的程度。如果相似度高,说明重构图像与原始图像相近,隐私泄露风险大;反之,则隐私保护效果较好。通过这种方式,直观地展示了 DP 在保护隐私方面的有效性。
- 探究 DP 机制与隐私泄露关系:研究人员借助重构攻击,深入探究了 DP 机制和隐私泄露之间的联系。研究发现,为本地客户端实施匿名机制能够降低数据隐私泄露的概率。这是因为匿名机制增加了攻击者获取用户真实身份和数据的难度,从而减少了隐私泄露的风险。同时,他们还分析了梯度裁剪项对隐私保护水平和学习精度的影响。不同的裁剪方法,如固定常数裁剪和基于未裁剪梯度范数中位数的裁剪,对隐私保护和学习性能的影响各不相同。适当的裁剪可以在一定程度上平衡隐私保护和学习精度,避免过度裁剪导致模型精度大幅下降,或者裁剪不足无法有效保护隐私。
- DP 噪声下重构攻击的收敛分析:在这部分研究中,研究人员提出了两种策略下 DP 噪声中重构攻击的收敛界限。他们先计算每一轮 DP 机制对重构损失的预期影响,然后通过递归计算,推导出添加噪声时恢复图像的预期变化。这一分析为理解重构攻击在 DP 噪声环境下的收敛特性提供了理论依据,有助于进一步优化 DP 设置,提高隐私保护效果的同时,保障模型的性能。
- 模拟实验评估 DP 设置影响:研究人员进行了大量模拟实验,在单端(SE)机器学习场景和联邦学习场景下评估各种 DP 设置对重构攻击和 FL 训练的影响。在单端机器学习场景中,主要通过展示攻击指标和恢复图像,研究裁剪和 DP 机制对重构攻击的抵御能力;在联邦学习场景中,则重点展示精度性能和 DP 效果之间的权衡关系。通过交叉分析隐私保护和精度性能,明确了两者之间的直接权衡关系,为在 DP 机制下提升联邦学习效用、指导个性化隐私保护设置提供了有力支持。
在研究结论和讨论部分,研究人员通过对传统 DPFL 框架进行重构攻击,基于重构图像详细刻画了 DP 设置(包括噪声规模和裁剪边界选择)之间的关系。他们提出的隐私损失评估方法,利用不同的预训练模型推断重构图像和真实图像的输出,并比较两者之间的距离来衡量隐私泄露。这一方法为评估 DPFL 中的隐私损失提供了新的视角和思路。大量模拟实验的结果也为实际应用中 DP 的设置提供了切实可行的指导。该研究成果不仅有助于提升联邦学习在隐私保护方面的性能,还为未来相关领域的研究奠定了基础,推动了联邦学习与差分隐私技术在实际应用中的发展,让数据隐私保护和模型性能提升能够更好地协同发展,具有重要的理论和实践意义。