在基于D2D技术的联邦学习中，利用多智能体强化学习进行图结构发现

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Journal of Selected Topics in Signal Processing》：Multi-Agent Reinforcement Learning for Graph Discovery in D2D-Enabled Federated Learning

【字体：大中小】 时间：2026年01月04日 来源：IEEE Journal of Selected Topics in Signal Processing 13.7

编辑推荐：

　　联邦学习结合设备到设备通信可提升收敛速度并减少模型偏差，但需解决数据隐私、信任约束和信道不稳定问题。本文提出去中心化强化学习方法构建D2D图结构，通过可靠链路优化有影响力数据交换，满足数据与设备信任约束，在监督/半监督/无监督场景下均实现3倍加速和5倍能耗降低，并适应动态无线环境和大规模系统。

摘要：

通过设备间（D2D）通信增强联邦学习（FL）可以帮助提高收敛速度并减少模型偏差，因为这样可以利用本地信息进行交流。然而，数据隐私问题、设备间的信任限制以及不可靠的无线信道都给寻找一种既有效又资源高效的D2D图结构带来了挑战。在本文中，我们开发了一种去中心化的强化学习（RL）方法，用于D2D图的发现，该方法能够在可靠的链路上促进关键数据点的传输，同时遵循数据和设备特定的信任限制。每个设备上的独立RL代理以去中心化的方式训练策略来预测传入链接的影响，而无需暴露本地数据或产生显著的通信开销。对于有监督的学习场景，D2D图旨在提高设备特定的标签多样性，而不影响系统级别的性能。对于半监督场景，我们通过结合分布式标签传播来实现这一目标。对于无监督场景，我们开发了一种基于变异的多样性度量方法，该方法根据占据的潜在空间来估计数据多样性。在五个广泛使用的数据集上进行的数值实验证实，我们的方法可以提高收敛速度，最多可达3倍，同时将能耗降低最多可达5倍。实验还表明，我们的方法能够抵抗落后设备和聚合间隔的变化。最后，我们展示了我们的方法在系统规模扩大时具有可扩展性，且不会增加相对开销，并且能够适应各种下游FL架构和动态无线环境。

引言

联邦学习（FL）已成为在一系列分布式边缘设备上进行全局机器学习（ML）模型构建的流行方法。FL的标准操作包括一个协调服务器定期汇总在边缘设备上基于各自本地数据集训练的模型。FL中的一个基本挑战是参与设备之间存在非独立同分布（non-i.i.d.）的数据分布，这会减慢收敛速度并导致全局模型偏差[1]。当某些设备由于信道条件不佳等原因只能间歇性地向服务器传输模型更新时，这些问题会更加严重。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号