《Neurocomputing》:Self-triggered adaptive dynamic programming for optimal control of multi-input nonlinear systems
编辑推荐:
本文提出了一种自触发自适应动态规划(STADP)算法,用于解决多输入非线性系统的最优控制问题。该算法结合积分强化学习(IRL)技术,无需系统漂移动力学先验知识;设计了一种基于状态预测的自触发(ST)条件,相比事件触发(ET)机制,显著降低了硬件资源需求;理论证明了Zeno行为的排除和闭环系统的一致最终有界性。仿真实验表明,该方法相比时间触发方法,采样次数分别减少了约60.2%和70.8%。
亮点
- •
(1) 与现有的基于ADP的事件触发(ET)控制策略相比,本文将ET控制扩展到自触发(ST)控制框架。此外,提出了一种新的ST条件,可以动态预测下一个触发时刻,从而降低系统对硬件资源的需求。
- •
(2) 与现有基于ADP的ST控制方法中使用的系统辨识技术相比,本文采用积分强化学习(IRL)算法,避免了对漂移动力学的显式建模。
- •
(3) 与ET机制相比,ST控制框架采用了更严格的触发条件。推导了最小触发间隔,从理论上排除了Zeno行为的可能性。
- •
(4) 实验结果表明,与传统的定时触发控制方法相比,所提出的ST控制策略在保持系统稳定性和降低计算开销的同时,分别将样本数量减少了60.2%和70.8%。
问题描述
考虑多输入非线性系统为
\dot{x}(t) = f(x(t)) + \sum_{i=1}^{N} g_i(x(t)) u_i(t)
其中 是系统状态, 是控制输入。, 分别是漂移动力学和控制输入动力学。
假设1
给定一个紧集 ,设平衡点 。函数 , 是Lipschitz连续的,且 。以下边界成立 和 ,其中 和 。
定义1
对于多输入非线性系统,如果满足以下条件,则每个参与者 达到纳什均衡解 :
J_i^(x) = \min{u_i} J_i(x, u_i, u{-i}^)
价值函数定义为
V(x) = \int_t^{\infty} r(x(\tau), u_1(\tau), \ldots, u_N(\tau)) d\tau
其中 ,且 , 是对称的。
事件触发控制简述
为了描述ET机制的原理,定义了一个严格递增的触发时刻序列 ,初始时刻为 。在每个触发时刻 ,系统的采样状态定义为 。实时计算当前系统状态与最新采样状态之间的偏差 。仅当误差 超过预设阈值 时,才触发下一次采样并重新计算控制输入。
ET最优控制策略为
u_i^(t) = -\frac{1}{2} R_i^{-1} g_i^T(x(t_k)) \nabla V^(x(t_k))
因此系统(1)变为
\dot{x}(t) = f(x(t)) + \sum_{i=1}^{N} g_i(x(t)) u_i^*(t)
假设2
(原文此处内容不完整,通常假设控制输入有界或系统满足某些稳定性条件)
自触发条件设计
基于定理1中建立的闭环稳定性,采用设计的ET条件(17),并通过严格的数学推导扩展到ST控制。根据当前状态 和系统动力学模型 ,通过求解不等式直接预测下一个触发时间 。
定理2
考虑由(1)描述的Lipschitz连续动力系统,其中向量场满足Lipschitz条件。在定理1中定义的ET阈值下,ST规则(32)(原文未给出具体公式,通常是一个关于状态和时间的函数)被推导出来。
仿真实验
在本节中,两组仿真实验的结果将验证所提方法对多输入非线性系统的有效性。
例1
考虑以下多输入非线性系统,
\dot{x}_1 = -x_1 + x_2 + x_1 x_2 + u_1
\dot{x}_2 = -x_1 - x_2 + x_1^2 + u_2
其中 , 。系统初始化状态为 , ,评判神经网络(Critic NNs)的学习率为 ,初始权重在 范围内均匀随机初始化,选择的激活函数为 ,这遵循了文献中常用的多项式型基函数设计。
结论
为了解决多输入非线性系统的最优控制问题,本文提出了一种STADP算法。首先,利用IRL技术避免了对漂移动力学模型的依赖。然后,设计了一种新的ET条件以确保系统稳定性。在此基础上,严格推导了基于状态的自触发条件,并证明了Zeno现象的避免。最后,通过两个仿真实验证明了该算法的有效性。
此外,所提出的...