基于编码器-解码器的水印技术在联邦学习模型中的应用
《Future Generation Computer Systems》:Encoder-decoder based watermarking for federated learning models
【字体:
大
中
小
】
时间:2025年10月02日
来源:Future Generation Computer Systems 6.2
编辑推荐:
本文提出一种基于编码器-解码器的联邦学习模型水印保护框架,通过动态阈值定位和分层次嵌入策略,在确保模型性能的同时增强水印隐蔽性和鲁棒性,有效抵抗多种攻击。
联邦学习作为一种重要的深度学习分支,旨在解决数据孤岛、数据隐私、安全以及通信带宽等问题。随着联邦学习在物联网、智能交通、自动驾驶和推荐系统等领域的广泛应用,如何在这些分布式学习过程中保护模型和数据的安全,特别是防止模型的非法复制和滥用,成为亟需解决的重要课题。由于联邦学习的分布式特性,模型更新过程可能面临各种恶意攻击,如模型窃取和数据泄露。因此,采用水印技术来保护联邦学习模型的安全和所有权,成为近年来研究的热点之一。
数字水印技术是一种通过在载体数据中嵌入和隐藏数字信息来保护版权和所有权的方法,已被广泛应用于多媒体保护和版权保护领域。类似的思路也被引入到深度神经网络(DNN)模型中,作为保护模型知识产权的一种新兴方法。DNN水印技术主要分为白盒水印和黑盒水印两种类型。在白盒水印中,模型拥有者掌握目标模型的网络结构和内部权重信息,可以直接在模型中嵌入水印,从而在模型被复制或窃取时验证其所有权。而黑盒水印则通过在模型中嵌入后门,并利用特定的输入输出对来证明模型所有权。这种方法即使不公开模型的内部结构,也能有效验证版权。
然而,联邦学习的分布式和多客户端特性使得水印嵌入面临独特的挑战。首先,联邦学习的训练过程是在多个客户端上并行进行的,这些客户端高度分散,模型拥有者无法访问所有训练数据。因此,传统的基于集中式训练的水印嵌入方法无法直接应用于联邦学习。其次,由于联邦学习中存在恶意客户端,它们可以发起拒绝服务攻击、模型退化攻击等,这些攻击不仅对模型训练构成威胁,还可能影响水印的嵌入和提取过程。面对这些挑战,联邦学习水印技术需要专门设计,以应对数据隐私、分布式训练和恶意攻击等复杂性。
为了解决上述问题,已有多种基于联邦学习(FL)的水印保护方案被提出。例如,[23]提出了第一个FL模型保护方案,该方案通过在每次聚合本地模型到全局模型后引入服务器上的再训练步骤,并在过程中嵌入后门水印。这种方法虽然有效,但在数据隐私保护方面存在一定的挑战,尤其是在数据高度分散和客户端异构性较高的场景中。为了应对数据隐私保护的问题,[24]进一步提出了基于同态加密(HE)的FL框架水印保护方案。该方案利用同态加密生成基于噪声的触发集,同时保护数据隐私,并将后门水印嵌入到加密模型中,从而确保版权保护而不泄露敏感数据。对于每个客户端独立操作的情况,[25]提出了基于特征和后门的水印方案,使得每个客户端可以独立嵌入水印并声明其对训练模型的所有权。这种方法更适合于客户端异构性和分布式环境。此外,[26]提出了一个两级保护机制,通过在全局模型中嵌入全局水印以验证模型所有权,同时在每个本地模型中嵌入本地指纹。这种方法在增强本地模型保护的同时,确保了全局模型的安全性。
然而,现有方案仍存在一些不足之处。首先,现有方案在嵌入水印信息后,水印信息的隐蔽性较差,无法保证较高的鲁棒性和安全性。其次,在嵌入大量水印信息后,无法确保水印信息对模型性能的影响可以被控制。因此,如何在保证深度神经网络模型高保真度的前提下,嵌入足够的水印信息,成为亟需解决的关键问题。
针对上述局限性,本文提出了一种鲁棒且安全的白盒水印方法FedWW,专门用于联邦学习模型。FedWW通过优化水印信息的生成和嵌入策略,确保深度神经网络模型的高保真度,并有效提升水印信息的隐写性、鲁棒性和安全性。该方法的基本思想是使用渐进式水印嵌入方式,在训练过程中逐步注入水印信息,从而确保水印信息不会影响模型的性能,并增强模型对潜在攻击的防御能力。FedWW方法分为三个阶段:水印信息生成、水印信息嵌入和所有者检测。
在水印生成阶段,从数据集中选择一部分数据,并将其与模型结合,通过解码器生成水印信息。在水印嵌入阶段,采用阈值方法确定模型中每个卷积层和批量归一化(BN)层的权重位置,将水印信息嵌入到权重大小介于25%至75%之间的部分。这种方法有效地平衡了隐蔽性、鲁棒性和模型性能,从而确保水印信息的安全性和鲁棒性。同时,将解码器的第一个卷积层嵌入到目标模型的BN层中,其余的卷积层则嵌入到目标模型的卷积层中。选择中等范围的权重可以防止这些权重在训练过程中被过度调整。此外,使用批量归一化(BN)层来调整输入数据的均值和方差,从而隐藏水印信息,使其难以被检测。这种方法实现了更高的隐蔽性和更强的鲁棒性。
在所有者检测阶段,解码器被分离,解码器被存储为联邦学习聚合器中的一个密钥,用于所有者检测。在所有者检测阶段,模型通过逆向处理从可疑模型中提取水印信息,并结合联邦聚合器中保存的解码器重建一个小型的神经网络模型。这种方法创新性地解决了模型所有权验证问题。总结来看,本文的贡献包括以下几个方面:
1. 提出了一种基于双通道编码器-解码器架构的动态水印生成和嵌入方法,通过融合数据特征和权重分布特性,实现了在ResNet、VGG等模型中隐蔽性和鲁棒性的平衡。该方案在CIFAR-10/100数据集上保持了98.7%的模型准确率,并在联邦环境中抵御了多种类型的攻击(如模型替换、参数篡改等),水印存活率达到96.2%。
2. 首先,设计了一种基于权重敏感性分析的动态阈值定位机制,并使用SHA-256哈希链加密存储水印坐标矩阵。其次,通过卷积核通道注意力系数和BN层γ参数的联合筛选,在ResNet-50模块中实现了最优的嵌入密度。
3. 实验结果表明,在模型压缩、微调和混合攻击等场景下,水印恢复率仍保持在92.7%以上。与DNN-Watermark方案相比,误报率降低了67%,验证效率提高了5.8倍。该方法有效防止了恶意篡改或伪造,确保了模型的知识产权安全。
联邦学习是一种分布式机器学习方法,旨在在不集中存储数据的情况下训练全局机器学习模型。在传统的深度学习中,所有数据通常存储在中央服务器上,模型的训练也集中在该服务器上。而联邦学习则将数据分布在多个本地设备或客户端上,模型的训练在这些设备上进行,避免了数据的集中存储和处理。联邦学习的核心优势在于能够在保护数据隐私的同时,实现模型的协同训练。这种分布式训练模式不仅有助于提高模型的泛化能力,还能有效应对数据分布不均和客户端异构性等问题。
为了应对联邦学习环境中模型知识产权保护的挑战,本文构建了一个系统和威胁模型。模型基于一个集中式联邦学习框架,其中中央服务器被设置为一个完全可信的实体,负责协调训练和验证所有权。同时,将主要威胁设定为来自恶意客户端,这些客户端试图通过各种手段移除嵌入的水印。在这一背景下,本文提出的FedWW方法能够在不损害模型性能的前提下,有效嵌入水印信息,并提升其安全性。
实验部分验证了本文方法在四种模型和三个数据集上的有效性。三个数据集包括MNIST、CIFAR-10和CIFAR-100,而四种模型包括VGG、ResNet18、ResNet34和GoogleNet。具体而言,VGG、ResNet18和GoogleNet模型在CIFAR-10数据集上进行训练,而ResNet34模型则在CIFAR-100数据集上进行训练。所有实验均使用PyTorch在Ubuntu 21.10系统上进行,并在训练过程中使用RTX A6000 GPU进行加速。
在联邦学习的训练过程中,水印信息的嵌入和提取需要特别考虑模型的分布式特性和客户端之间的协同性。本文方法在水印信息生成阶段,通过解码器生成水印信息,并将其与模型的特征相结合。这一过程确保了水印信息能够被有效地嵌入到模型中,同时不会影响模型的性能。在水印嵌入阶段,采用阈值方法来确定嵌入的位置,确保水印信息的隐蔽性和鲁棒性。此外,使用BN层来调整输入数据的均值和方差,从而隐藏水印信息,使其难以被检测。
在所有者检测阶段,模型通过逆向处理从可疑模型中提取水印信息,并结合解码器重建一个小型的神经网络模型。这一过程确保了模型所有权的验证能够以一种创新的方式进行。实验结果表明,本文方法在多种攻击场景下表现出色,水印恢复率保持在较高水平,同时误报率和验证效率均优于现有方案。这表明FedWW方法在保护联邦学习模型的知识产权方面具有显著优势。
从理论分析的角度来看,本文提出了三个关键定理,以验证FedWW框架在实际应用中的有效性和安全性。首先,通过动态阈值定位策略和哈希链机制,证明了水印迁移的长期可持续性,确保了框架在资源波动和模型持续训练条件下的有效性。其次,通过权重敏感性分析,验证了水印信息的嵌入位置对模型性能的影响较小,从而确保了水印信息的隐蔽性和鲁棒性。最后,通过实验验证了水印信息在不同攻击场景下的恢复能力,进一步证明了FedWW框架在实际应用中的可靠性。
在讨论部分,本文方法的核心创新在于提出了一种专门针对联邦学习环境的水印保护框架,以应对现有方案在水印信息嵌入后隐蔽性和鲁棒性不足的问题。这些问题影响了模型的原始性能,使得现有方案难以满足实际需求。本文提出的框架结合了参数化水印生成和多级嵌入策略,以实现更高的安全性。具体而言,通过动态阈值定位机制,确保水印信息的嵌入位置能够适应不同的模型结构和训练环境,从而提高其鲁棒性。此外,通过SHA-256哈希链加密存储水印坐标矩阵,确保了水印信息的安全性,防止了恶意篡改或伪造。
本文方法在水印信息嵌入和提取过程中,还考虑了模型的分布式特性和客户端之间的协同性。在水印嵌入阶段,采用阈值方法来确定嵌入的位置,确保水印信息的隐蔽性和鲁棒性。同时,使用BN层来调整输入数据的均值和方差,从而隐藏水印信息,使其难以被检测。这种方法在保持模型性能的同时,提高了水印信息的安全性。
在所有者检测阶段,模型通过逆向处理从可疑模型中提取水印信息,并结合解码器重建一个小型的神经网络模型。这一过程确保了模型所有权的验证能够以一种创新的方式进行。实验结果表明,本文方法在多种攻击场景下表现出色,水印恢复率保持在较高水平,同时误报率和验证效率均优于现有方案。这表明FedWW方法在保护联邦学习模型的知识产权方面具有显著优势。
在结论部分,本文提出了一种基于编码器-解码器结构的水印方案,该方案适用于联合深度神经网络模型,旨在高效验证模型所有权。该方法通过独立嵌入水印到每个客户端模型,有效抵抗了协同攻击。实验验证了其在模型所有权验证、高保真度和防御复杂攻击如剪枝方面的优越性。这表明FedWW方法在联邦学习环境中具有重要的应用价值,能够有效解决模型知识产权保护的问题。
总之,本文提出了一种创新的水印保护框架FedWW,专门用于联邦学习模型。该框架结合了参数化水印生成和多级嵌入策略,以实现更高的安全性。通过动态阈值定位机制和哈希链加密,确保了水印信息的隐蔽性和鲁棒性。实验结果表明,FedWW方法在多种攻击场景下表现出色,水印恢复率保持在较高水平,同时误报率和验证效率均优于现有方案。这表明FedWW方法在保护联邦学习模型的知识产权方面具有显著优势,能够有效应对数据隐私、分布式训练和恶意攻击等挑战。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号