
-
生物通官微
陪你抓住生命科技
跳动的脉搏
零阶自适应个性化联邦策略梯度算法ZO-APFPG:解决环境异构性与梯度缺失的强化学习新范式
【字体: 大 中 小 】 时间:2025年06月10日 来源:Expert Systems with Applications 7.5
编辑推荐:
针对联邦强化学习(FRL)中环境异构性与一阶梯度信息缺失的挑战,研究人员提出零阶自适应个性化联邦策略梯度算法ZO-APFPG。该算法融合零阶优化与联邦策略梯度,通过个性化模型平衡全局与局部策略,理论证明其以O(1/K)速率收敛,实验验证其在多智能体异构环境中的优越性,为隐私保护与计算效率提供新思路。
在人工智能领域,强化学习(RL)因其在自动驾驶、无人机集群控制等复杂决策任务中的卓越表现备受关注。然而,传统RL依赖集中式训练,面临数据隐私泄露与通信开销高的双重困境。联邦强化学习(FRL)虽通过分布式训练缓解了这些问题,但智能体间环境异构性导致策略泛化性差,且实际场景中一阶梯度信息常不可获取——这两大痛点严重制约FRL的实用化进程。
针对上述挑战,中国研究人员提出零阶自适应个性化联邦策略梯度算法ZO-APFPG。该成果创新性地将零阶优化(无需显式梯度计算)与联邦策略梯度相结合,设计自适应混合机制平衡全局-局部策略模型,理论证明其收敛速率可达O(1/K),与一阶方法相当。实验表明,在异构多智能体粒子环境(MPE)中,ZO-APFPG在隐私保护与性能均衡方面显著优于基线算法。这项发表于《Expert Systems with Applications》的研究,为医疗健康等敏感领域实现安全高效的分布式决策提供了新范式。
关键技术方法
研究采用三项核心技术:(1)基于随机方向采样的零阶策略梯度估计,通过M条探索轨迹、H个随机方向及U步采样构建梯度替代;(2)双层联邦架构,智能体本地更新参数Vi
(k)
与服务器聚合全局模型W(k)
交替优化;(3)自适应个性化模型V?i
(k+1)
,动态融合全局-局部策略参数以应对环境异构性。
研究结果
结论与意义
该研究首次实现具有理论保证的零阶个性化FRL算法,突破梯度不可获场景下的分布式训练瓶颈。其创新点在于:(1)将zeroth-order优化引入FRL框架,扩展算法适用场景;(2)通过α-自适应机制解决环境异构性,为医疗健康领域的多中心协作学习提供安全解决方案。未来可探索在边缘计算设备上的部署,进一步推动隐私保护RL的实用化进程。
生物通微信公众号
知名企业招聘