零阶自适应个性化联邦策略梯度算法ZO-APFPG：解决环境异构性与梯度缺失的强化学习新范式

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月10日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　针对联邦强化学习(FRL)中环境异构性与一阶梯度信息缺失的挑战，研究人员提出零阶自适应个性化联邦策略梯度算法ZO-APFPG。该算法融合零阶优化与联邦策略梯度，通过个性化模型平衡全局与局部策略，理论证明其以O(1/K)速率收敛，实验验证其在多智能体异构环境中的优越性，为隐私保护与计算效率提供新思路。

在人工智能领域，强化学习(RL)因其在自动驾驶、无人机集群控制等复杂决策任务中的卓越表现备受关注。然而，传统RL依赖集中式训练，面临数据隐私泄露与通信开销高的双重困境。联邦强化学习(FRL)虽通过分布式训练缓解了这些问题，但智能体间环境异构性导致策略泛化性差，且实际场景中一阶梯度信息常不可获取——这两大痛点严重制约FRL的实用化进程。

针对上述挑战，中国研究人员提出零阶自适应个性化联邦策略梯度算法ZO-APFPG。该成果创新性地将零阶优化(无需显式梯度计算)与联邦策略梯度相结合，设计自适应混合机制平衡全局-局部策略模型，理论证明其收敛速率可达O(1/K)，与一阶方法相当。实验表明，在异构多智能体粒子环境(MPE)中，ZO-APFPG在隐私保护与性能均衡方面显著优于基线算法。这项发表于《Expert Systems with Applications》的研究，为医疗健康等敏感领域实现安全高效的分布式决策提供了新范式。

关键技术方法
研究采用三项核心技术：(1)基于随机方向采样的零阶策略梯度估计，通过M条探索轨迹、H个随机方向及U步采样构建梯度替代；(2)双层联邦架构，智能体本地更新参数V_i
^(k)
与服务器聚合全局模型W^(k)
交替优化；(3)自适应个性化模型V?_i
^(k+1)
，动态融合全局-局部策略参数以应对环境异构性。

研究结果

算法设计：ZO-APFPG通过zeroth-order梯度估计器替代传统PG，采用<>^O
(s)>值函数评估策略，避免一阶信息依赖；个性化权重α调节全局模型W_i
^(k)
与本地模型V_i
^(k)
的混合比例。
理论证明：在Lipschitz连续与有界方差假设下，证明全局/局部模型参数均以O(1/K)速率收敛至平稳策略，匹配一阶FRL算法的理论边界。
实验验证：在MPE异构环境中，ZO-APFPG相比FedPG、ZO-PG等基线算法提升15%-30%的跨环境泛化性，通信成本降低40%，且保护了本地数据隐私。

结论与意义
该研究首次实现具有理论保证的零阶个性化FRL算法，突破梯度不可获场景下的分布式训练瓶颈。其创新点在于：(1)将zeroth-order优化引入FRL框架，扩展算法适用场景；(2)通过α-自适应机制解决环境异构性，为医疗健康领域的多中心协作学习提供安全解决方案。未来可探索在边缘计算设备上的部署，进一步推动隐私保护RL的实用化进程。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号