动态事件触发型无模型强化学习在多智能体系统协同控制中的应用

《IEEE Transactions on Reliability》:Dynamic Event-Triggered Model-Free Reinforcement Learning for Cooperative Control of Multiagent Systems

【字体: 时间:2025年11月20日 来源:IEEE Transactions on Reliability 5.7

编辑推荐:

  模型无关动态事件触发自适应学习控制方案针对连续时变线性多智能体系统,无需系统模型知识,通过静态与动态事件触发机制(SETM/DETM)降低数据传输率,结合带收敛证明的离线策略强化学习算法提出自适应迭代方法。数值实验验证了该方法在线性/非线性多智能体系统中的有效性,并在多区域电力系统中测试,结果表明DETM在负载频率控制问题中能实现更优的频率响应和更低的通信开销。

  

摘要:

本文提出了一种新型的无模型动态事件触发自适应学习控制方案,用于连续时间线性多智能体系统。该控制方案与基于模型的控制方案不同,因为它不需要预先了解系统的模型。为了进一步减少传输数据,本文提出了一种基于静态事件触发机制(SETM)和动态事件触发机制(DETM)的事件触发控制策略。与SETM相比,DETM能够显著延长平均事件间隔的同时保持控制性能。此外,基于离策略积分强化学习,本文提出了一种具有收敛性证明的自适应迭代方法。通过对线性和非线性多智能体系统进行数值测试,证明了所提出的方案能够保证学习性能并延长触发间隔。最后,该学习控制方案在多区域电力系统上进行了测试,展示了该方法的可靠性和实用性。具体来说,使用三种控制方案研究了多区域电力系统的负荷频率控制问题,结果表明DETM能够在最低的信息传输率下实现更好的频率响应,并确保电力系统的整体质量和可靠性。

引言

多智能体系统(MASs)中的协作控制问题由于其广泛应用而得到了广泛研究,例如智能电网[1]、无人机[2]、多卫星[3]、分布式传感器网络[4]等。近年来,MASs的分布式最优协作控制受到了广泛关注[5]、[6]。其目标是通过智能体之间的信息交换逐步实现期望状态,从而实现整个系统的协调。博弈论为MASs的分布式最优协作控制提供了一个基本框架[7]、[8]。在差分图游戏中,智能体在某种通信拓扑结构下通过优化性能函数来制定最优策略,以达到纳什均衡[9]。特别是,线性二次差分游戏的均衡解等同于代数Riccati方程的最优解[10]。本文聚焦于差分图游戏,提出了一种事件触发无模型学习控制方案,并进一步解决了多区域电力系统的负荷频率控制(LFC)问题。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号