基于约束更新投影的安全多智能体强化学习算法(MACUP)在关键工程领域的应用研究

【字体: 时间:2025年09月02日 来源:Enfermedades infecciosas y microbiologia clinica (English ed.)

编辑推荐:

  本文提出了一种创新的安全多智能体约束更新投影算法(MACUP),通过策略约束优化框架解决传统强化学习(RL)忽视安全性的痛点。该算法采用:1)基于更严格策略性能差异边界构建代理函数;2)低计算复杂度的投影优化法;3)多智能体顺序更新框架。实验证明其在满足安全约束的同时能获得更高奖励,为自动驾驶、机器人协作等关键领域提供可靠解决方案。

  

亮点

相关研究

安全强化学习中,约束马尔可夫决策过程(CMDP)被广泛用于建模安全问题。近年来研究者不断提出新算法,如基于策略约束优化的方法,相比基于李雅普诺夫函数(Lyapunov)的方法显著降低了计算复杂度。

理论基础

本节首先介绍约束马尔可夫决策过程(CMDP),阐述智能体与环境交互时需同时兼顾奖励最大化和成本约束;其次解析广义优势估计(GAE)的计算公式及其稳定性优势;最后说明多智能体顺序策略更新框架的运行机制。

理论分析

基于更严格的策略性能差异边界,我们推导出多智能体策略性能差异的上下界。这些边界将作为后续代理目标函数和代理成本函数的理论基础,为算法提供数学保障。

算法实现

基于上述理论边界,我们构建了新型代理函数,并采用投影法直接优化策略。这种方法无需对代理函数进行凸近似,既减少了误差导致的不安全行为风险,又避免了计算费雪信息矩阵(Fisher Information Matrix)的复杂度。

实验结果

在安全MAMuJoCo和MAIG环境中,本算法对比HAPPO、MAPPO等基线方法展现出显著优势。特别是在多模态奖励场景中,基于策略梯度(PG)的个体策略方法被证实能收敛到最优解。

结论

本研究通过:1)严格的多智能体策略边界推导;2)投影优化法的创新应用;3)顺序更新框架的协同机制,实现了安全约束与高收益的平衡。该成果为关键领域的安全决策提供了新范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号