基于合作博弈的分布式最优同步控制:离散时间多智能体系统中通过多步分布式值迭代实现

《IEEE Systems Journal》:Cooperative Game-Based Distributed Optimal Synchronization Control via Multistep Distributed Value Iteration in Discrete- Time Multiagent Systems

【字体: 时间:2025年11月21日 来源:IEEE Systems Journal 4.4

编辑推荐:

  针对离散时间线性多智能体系统分布式协同博弈求解问题,提出基于模型的阶梯式DVI强化学习算法,有效平衡了DVI算法的收敛速度与DPI初始策略可容性要求,设计了通用稳定性准则并验证了算法有效性。

  

摘要:

分布式策略迭代(DPI)和分布式价值迭代(DVI)是分布式强化学习(DRL)中的两种主要算法,用于解决由分布式协作共识控制派生的分布式协作博弈(DCG)问题。DPI的收敛速度较快,但初始控制策略必须是可行的。DVI算法避免了DPI算法的缺点,但其收敛速度较慢。为了找到一种方法来平衡DPI算法和DVI算法,以解决离散时间线性(DTL)多智能体系统(MASs)中的DCG问题,本文提出了一种基于模型的多步DVI RL算法。首先,将一般DTL MASs中的分布式领导者-追随者跟踪控制问题转化为DCG问题,并利用所提出的算法求解贝尔曼方程得到DCG的纳什均衡解。然后,在分析DVI和DPI算法的基础上,提出了一种结合这两种迭代算法优点的多步DVI算法。其次,我们验证了所提算法的收敛性,并设计了一个通用稳定性准则以确保获得的控制策略是可行的。最后,通过数值仿真实验验证了所提算法的可行性和有效性。

引言

近年来,分布式协作博弈(DCGs)被广泛应用于解决分布式无领导共识控制[1]和分布式领导者-追随者最优跟踪控制[2]问题。DCGs已被用于解决一些现实世界的工业控制问题,例如多非完整移动机器人的围控问题、多轮式机器人的避碰问题以及多自主飞行器的编队控制问题。它们受到了学者们的广泛关注,已成为最重要的研究课题之一。DCGs主要涉及代数图论(通信图拓扑)、多智能体系统(MASs)、分布式共识控制理论(分布式领导者-追随者控制和分布式无领导共识控制)以及分布式学习算法(DRL和分布式自适应动态规划(DADP)算法)。代数图论用于以分布式方式研究协作博弈;MASs为DCGs提供了相应的载体或系统模型;分布式共识控制理论的应用使DCGs更加具体化;分布式学习算法可用于获得DCGs的分布式纳什均衡(NE)解。DCGs为解决分布式共识控制问题提供了一种方法,表明分布式共识控制问题可以表示为DCGs的形式。本文重点关注分布式共识控制中的分布式领导者-追随者同步控制问题,该问题要求所有追随者智能体的状态与领导者或参考智能体的状态保持同步。本文的目标是快速求解DCGs的全局纳什均衡,通常需要建立耦合的哈密顿-雅可比-贝尔曼(HJB)方程。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号