通过Q学习方法研究连续时间随机线性二次系统的斯塔克伯格博弈

《Science China-Information Sciences》:Stackelberg games for continuous-time stochastic linear quadratic systems via Q-learning

【字体: 时间:2025年11月04日 来源:Science China-Information Sciences 7.6

编辑推荐:

  提出基于Q学习的动态Stackelberg博弈求解方法,通过演员-批评神经网络逼近未知系统参数下的Q函数与控制策略,结合贝尔曼方程与梯度下降法建立在线模型免费算法,证明其在持续激励条件下对所有控制策略几乎 surely收敛,并验证闭环系统状态与估计误差的有界性。

  

摘要

本文提出了一种Q学习方法,用于解决涉及领导者与N个追随者的随机线性二次斯塔克伯格博弈问题,其中系统动态是未知的。目标是通过求解基于领导者-追随者层次结构的耦合哈密顿-雅可比-贝尔曼方程来获得均衡策略。对于每个参与者,包含未知系统参数的Q函数可以通过评论家神经网络进行近似,而控制策略可以通过演员神经网络进行近似。然后根据贝尔曼方程和梯度下降方法给出调整法则。本文开发了一种在线无模型算法,并证明了在持续激励条件下,该算法对于任意控制策略几乎都能确保收敛。在一些温和的条件下,还证明了闭环系统状态和估计权重误差几乎可以确保一致地最终有界。最后,通过一个数值示例来展示所提算法的有效性。

本文提出了一种Q学习方法,用于解决涉及领导者与N个追随者的随机线性二次斯塔克伯格博弈问题,其中系统动态是未知的。目标是通过求解基于领导者-追随者层次结构的耦合哈密顿-雅可比-贝尔曼方程来获得均衡策略。对于每个参与者,包含未知系统参数的Q函数可以通过评论家神经网络进行近似,而控制策略可以通过演员神经网络进行近似。然后根据贝尔曼方程和梯度下降方法给出调整法则。本文开发了一种在线无模型算法,并证明了在持续激励条件下,该算法对于任意控制策略几乎都能确保收敛。在一些温和的条件下,还证明了闭环系统状态和估计权重误差几乎可以确保一致地最终有界。最后,通过一个数值示例来展示所提算法的有效性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号