多服务器联邦学习中数据卸载与服务器关联的联合优化:以实现成本效益高的智能物联网

《Future Generation Computer Systems》:Joint Optimization of Data Offloading and Server Association of Multi-server Federated Learning for Cost-Efficient Intelligent IoT

【字体: 时间:2026年03月29日 来源:Future Generation Computer Systems 6.2

编辑推荐:

  针对6G网络中大规模物联网设备带来的联邦学习可扩展性瓶颈,本文提出一种多服务器联邦学习架构,通过联合优化数据下载数学资源分配和服务器关联,将其转化为最小成本流问题,实现多项式时间最优解。实验表明该方法在MNIST、CIFAR-10和CIFAR-100数据集上分别将通信成本降低63.73%、80.92%和59.09%,同时提升吞吐量43%和成本效率105%,并保持更高的模型准确率。

  
陈山人|艾春辉|马文云|刘新晨
中国民族大学教育部民族语言智能分析与安全治理重点实验室,北京,100081,中国

摘要

物联网(IoT)设备的普及要求动态6G网络具备处理海量数据流的智能边缘处理能力。传统的联邦学习(FL)架构由于依赖单一参数服务器而存在严重的可扩展性瓶颈,而多服务器框架必须克服三个关键挑战:服务器能力的异构性、服务器间的依赖性以及资源竞争。尽管之前的研究分别探讨了数据卸载和服务器关联问题,但它们的计算效率高的联合优化仍然是一个未解决的挑战,这对于在现实世界的IoT部署中充分发挥多服务器FL的潜力至关重要。本文提出了一种新的多服务器FL架构,该架构在统一框架内联合优化数据卸载、计算资源分配和服务器关联。我们建立了一种图论解释方法,将这一复杂的优化问题转化为可以在多项式时间内求解的最小成本流问题,并为资源受限的场景开发了一种基于数据对机器学习性能影响的重要性的数据准入机制。实验结果表明,与传统的FL相比,我们的方法在MNIST、CIFAR-10和CIFAR-100数据集上分别实现了高达43%的系统吞吐量提升和105%的成本效率提升,同时在模型准确性上保持了3.07%、4.3%和5.27%的提升,并分别降低了63.73%、80.92%和59.09%的通信成本。

引言

物联网的爆炸性增长导致了海量数据的产生,为智能服务创造了前所未有的机会[1]、[2]。未来的6G网络旨在将智能融入整个基础设施中,需要实时在线数据训练以适应快速变化的网络动态,这为网络边缘的分布式机器学习带来了机遇和挑战[3]、[4]、[5]。智能物联网代表了普适感知、边缘智能和网络决策的关键融合,将定义下一代无线应用[6]。
FL使得能够在边缘设备之间进行分布式模型训练,同时保护数据隐私[7]、[8]、[9]。然而,如图1(a)所示,传统的FL框架依赖于单一参数服务器进行模型聚合,这在大规模IoT部署中形成了显著的瓶颈[10]、[11]。尽管现有研究尝试通过选择性上行链路调度[12]、空中梯度平均[13]、[14]、[15]、梯度量化[16]、[17]以及增加同步间隔[18]来解决同步开销问题,但这些方法对于智能物联网来说仍然不够充分。
关键的见解是,网络设备(网关、交换机、路由器)可以共同充当多个参数服务器,分散计算负载以克服可扩展性限制。图1(b)展示了所提出的智能物联网多服务器FL框架。每个边缘服务器都可以作为工作节点来更新其本地学习模型。从其所服务的IoT设备传来的传感器数据可以在服务器本地进行训练,或者卸载到其他边缘服务器(通过服务器间链接)进行分布式数据训练。然而,多服务器框架引入了一个关键的研究问题:如何联合优化数据卸载和服务器关联以最小化运营成本。
虽然一些先前的研究已经分别优化了多服务器FL的数据卸载[19]、[20]、[21]、[22]、[23]和服务器关联[25]、[26]、[27]、[28]、[29],但文献中尚未解决它们的联合优化问题,存在三个关键挑战:(1)边缘服务器的异构性导致复杂的资源分配决策;(2)服务器间链接的空间耦合意味着一个服务器的数据卸载决策会影响邻近服务器;(3)多个参数服务器对有限资源的竞争需要智能的关联机制。此外,随着IoT数据量的不断增加,系统可能会面临在资源限制下无法处理所有数据的不可行场景,因此需要基于数据重要性的数据准入机制。
本文提出了第一个全面的多服务器FL框架,实现了数据卸载和服务器关联的联合优化,解决了IoT边缘智能中的可扩展性和效率关键挑战。我们的方法通过开发图论解释方法,将复杂的优化问题转化为最小成本流公式,弥合了理论分布式学习和实际IoT部署之间的差距。该框架为所有可行情况(所有数据都能被处理的情况)和不可行情况(需要基于数据重要性的数据准入的情况)提供了最优解,在实际部署中实现了显著的性能提升。
主要贡献如下:
  • 我们提出了一种新的架构,其中网络设备共同充当多个参数服务器,克服了单服务器方法的可扩展性限制,同时实现了边缘服务器之间的策略性数据卸载。
  • 我们将联合优化问题视为最小成本流问题,将数据到达、卸载、训练和同步建模为构建图中的流,可以通过循环消除算法在多项式时间内求解。
  • 对于资源受限的场景,我们开发了基于机器学习价值的数据优先级机制,扩展了最短路径增强算法,以联合优化数据准入、卸载和服务器关联。
  • 我们的实验评估表明,与传统方法相比,该框架在吞吐量上提高了43%,成本效率提高了105%,同时在MNIST、CIFAR-10和CIFAR-100数据集上分别保持了3.07%、4.3%和5.27%的模型准确性提升,并分别降低了63.73%、80.92%和59.09%的通信成本,验证了其在实际智能IoT应用中的有效性。
    本文的其余部分组织如下。第2节介绍了所提出的多服务器FL架构的系统模型。第3节我们提出了联合优化多跳数据卸载和服务器关联的问题,并通过图论解释在可行和不可行情况下解决了该问题。第4节展示了仿真结果,第5节提供了FL场景下的实验验证。第6节讨论了所提出框架在6G网络中的实际部署前景和应用场景。最后,第7节总结了未来的研究方向。

    相关工作

    相关工作

    本节概述了数据卸载和多服务器FL架构的最新进展。

    系统模型

    本节介绍了所提出的多服务器FL架构的系统模型(见第1.2节)。该网络由N个工作节点(即边缘服务器)和K个参数服务器(例如网关和交换机)组成。传入的数据可以在服务器本地进行训练,或者卸载到其他边缘服务器(通过服务器间链接)进行分布式机器学习。参数服务器负责同步工作节点的本地模型。使用的符号如下

    数据卸载和服务器关联的联合优化

    在本节中,我们首先提出了所提出的多服务器FL架构中联合优化多跳数据卸载和服务器关联的问题。然后分别在第4.1节和第4.2节解决了可行和不可行情况下的问题。在第4.1节中,我们旨在在可行情况下最小化总体系统成本,同时支持所有传入数据的训练。在第4.2节中,我们优化了数据卸载、训练和模型同步

    实验结果

    本节通过仿真研究和FL场景下的实验验证,全面评估了我们提出的方法。评估系统地验证了我们的联合优化框架在多个维度上的有效性:系统吞吐量、成本效率、模型准确性和通信效率。

    讨论

    本文提出的多服务器FL联合优化框架可以集成到6G网络的各种实际部署场景中。例如,我们已经验证了该框架在随机链接故障场景中的适应性,表明它在一定程度上可以应对车辆雾计算中由车辆移动引起的拓扑变化。同时,基于数据重要性的数据准入机制可以提高数据准入的优先级

    结论与未来工作

    本文解决了智能物联网场景中多服务器FL系统的可扩展性和效率问题,并提出了一种新的架构,该架构联合优化了数据卸载、服务器关联和资源分配。通过将复杂的联合优化问题建模为图论中的最小成本流问题,所提出的框架可以在多项式时间内获得最优解。此外,基于机器学习重要性的数据准入机制

    CRediT作者贡献声明

    陈山人:撰写——原始草案、方法论、资金获取。艾春辉:撰写——原始草案、验证、软件。马文云:验证、软件。刘新晨:撰写——原始草案、方法论、资金获取、概念化。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号