通过递归学习和策略梯度方法,实现稳定性认证的基于策略的数据驱动LQR控制

《Automatica》:Stability-certified on-policy data-driven LQR via recursive learning and policy gradient

【字体: 时间:2026年06月09日 来源:Automatica 5.9

编辑推荐:

  Lorenzo Sforni|Guido Carnevale|Ivano Notarnicola|Giuseppe Notarstefano摘要在本文中,我们研究了一种数据驱动的框架,用于解决动态未知情况下的线性二次调节器(LQR)问题,并且还额外提供了整个学习和控制方案的稳定性

  
Lorenzo Sforni|Guido Carnevale|Ivano Notarnicola|Giuseppe Notarstefano

摘要

在本文中,我们研究了一种数据驱动的框架,用于解决动态未知情况下的线性二次调节器(LQR)问题,并且还额外提供了整个学习和控制方案的稳定性证明。具体而言,在所提出的基于策略的学习框架中,控制输入被应用于实际的(未知的)线性系统,并通过迭代进行优化。我们提出了一种名为Relearn LQR的学习和控制方法,该方法结合了递归最小二乘法和基于梯度方法的直接策略搜索。通过将这一方案建模为一个反馈互联的非线性动态系统,我们利用基于李雅普诺夫的方法以及非线性系统的平均化和时间尺度分离理论,为整个互联方案提供了正式的稳定性保证。通过数值模拟验证了所提出策略的有效性,在这些模拟中,Relearn LQR被应用于具有静态和漂移参数的飞机控制问题。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号