零阶自适应个性化联邦策略梯度算法ZO-APFPG:解决环境异构性与梯度缺失的强化学习新范式

【字体: 时间:2025年06月10日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对联邦强化学习(FRL)中环境异构性与一阶梯度信息缺失的挑战,研究人员提出零阶自适应个性化联邦策略梯度算法ZO-APFPG。该算法融合零阶优化与联邦策略梯度,通过个性化模型平衡全局与局部策略,理论证明其以O(1/K)速率收敛,实验验证其在多智能体异构环境中的优越性,为隐私保护与计算效率提供新思路。

  

在人工智能领域,强化学习(RL)因其在自动驾驶、无人机集群控制等复杂决策任务中的卓越表现备受关注。然而,传统RL依赖集中式训练,面临数据隐私泄露与通信开销高的双重困境。联邦强化学习(FRL)虽通过分布式训练缓解了这些问题,但智能体间环境异构性导致策略泛化性差,且实际场景中一阶梯度信息常不可获取——这两大痛点严重制约FRL的实用化进程。

针对上述挑战,中国研究人员提出零阶自适应个性化联邦策略梯度算法ZO-APFPG。该成果创新性地将零阶优化(无需显式梯度计算)与联邦策略梯度相结合,设计自适应混合机制平衡全局-局部策略模型,理论证明其收敛速率可达O(1/K),与一阶方法相当。实验表明,在异构多智能体粒子环境(MPE)中,ZO-APFPG在隐私保护与性能均衡方面显著优于基线算法。这项发表于《Expert Systems with Applications》的研究,为医疗健康等敏感领域实现安全高效的分布式决策提供了新范式。

关键技术方法
研究采用三项核心技术:(1)基于随机方向采样的零阶策略梯度估计,通过M条探索轨迹、H个随机方向及U步采样构建梯度替代;(2)双层联邦架构,智能体本地更新参数Vi
(k)
与服务器聚合全局模型W(k)
交替优化;(3)自适应个性化模型V?i
(k+1)
,动态融合全局-局部策略参数以应对环境异构性。

研究结果

  1. 算法设计:ZO-APFPG通过zeroth-order梯度估计器替代传统PG,采用<>O
    (s)>值函数评估策略,避免一阶信息依赖;个性化权重α调节全局模型Wi
    (k)
    与本地模型Vi
    (k)
    的混合比例。
  2. 理论证明:在Lipschitz连续与有界方差假设下,证明全局/局部模型参数均以O(1/K)速率收敛至平稳策略,匹配一阶FRL算法的理论边界。
  3. 实验验证:在MPE异构环境中,ZO-APFPG相比FedPG、ZO-PG等基线算法提升15%-30%的跨环境泛化性,通信成本降低40%,且保护了本地数据隐私。

结论与意义
该研究首次实现具有理论保证的零阶个性化FRL算法,突破梯度不可获场景下的分布式训练瓶颈。其创新点在于:(1)将zeroth-order优化引入FRL框架,扩展算法适用场景;(2)通过α-自适应机制解决环境异构性,为医疗健康领域的多中心协作学习提供安全解决方案。未来可探索在边缘计算设备上的部署,进一步推动隐私保护RL的实用化进程。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号