通过递归学习和策略梯度方法，实现稳定性认证的基于策略的数据驱动LQR控制

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Automatica》：Stability-certified on-policy data-driven LQR via recursive learning and policy gradient

【字体：大中小】 时间：2026年06月09日 来源：Automatica 5.9

编辑推荐：

　　Lorenzo Sforni|Guido Carnevale|Ivano Notarnicola|Giuseppe Notarstefano摘要在本文中，我们研究了一种数据驱动的框架，用于解决动态未知情况下的线性二次调节器（LQR）问题，并且还额外提供了整个学习和控制方案的稳定性

Lorenzo Sforni|Guido Carnevale|Ivano Notarnicola|Giuseppe Notarstefano

摘要

在本文中，我们研究了一种数据驱动的框架，用于解决动态未知情况下的线性二次调节器（LQR）问题，并且还额外提供了整个学习和控制方案的稳定性证明。具体而言，在所提出的基于策略的学习框架中，控制输入被应用于实际的（未知的）线性系统，并通过迭代进行优化。我们提出了一种名为Relearn LQR的学习和控制方法，该方法结合了递归最小二乘法和基于梯度方法的直接策略搜索。通过将这一方案建模为一个反馈互联的非线性动态系统，我们利用基于李雅普诺夫的方法以及非线性系统的平均化和时间尺度分离理论，为整个互联方案提供了正式的稳定性保证。通过数值模拟验证了所提出策略的有效性，在这些模拟中，Relearn LQR被应用于具有静态和漂移参数的飞机控制问题。

联系信箱：

粤ICP备09063491号

摘要

热点排行