多输入非线性系统自触发自适应动态规划最优控制研究

《Neurocomputing》:Self-triggered adaptive dynamic programming for optimal control of multi-input nonlinear systems

【字体: 时间:2025年12月27日 来源:Neurocomputing 6.5

编辑推荐:

  本文提出了一种自触发自适应动态规划(STADP)算法,用于解决多输入非线性系统的最优控制问题。该算法结合积分强化学习(IRL)技术,无需系统漂移动力学先验知识;设计了一种基于状态预测的自触发(ST)条件,相比事件触发(ET)机制,显著降低了硬件资源需求;理论证明了Zeno行为的排除和闭环系统的一致最终有界性。仿真实验表明,该方法相比时间触发方法,采样次数分别减少了约60.2%和70.8%。

  
亮点
  • (1) 与现有的基于ADP的事件触发(ET)控制策略相比,本文将ET控制扩展到自触发(ST)控制框架。此外,提出了一种新的ST条件,可以动态预测下一个触发时刻,从而降低系统对硬件资源的需求。
  • (2) 与现有基于ADP的ST控制方法中使用的系统辨识技术相比,本文采用积分强化学习(IRL)算法,避免了对漂移动力学的显式建模。
  • (3) 与ET机制相比,ST控制框架采用了更严格的触发条件。推导了最小触发间隔,从理论上排除了Zeno行为的可能性。
  • (4) 实验结果表明,与传统的定时触发控制方法相比,所提出的ST控制策略在保持系统稳定性和降低计算开销的同时,分别将样本数量减少了60.2%和70.8%。
问题描述
考虑多输入非线性系统为
\dot{x}(t) = f(x(t)) + \sum_{i=1}^{N} g_i(x(t)) u_i(t)
其中 x(t) \in \mathbb{R}^n 是系统状态,u_i(t) \in \mathbb{R}^{m_i} 是控制输入。f(x), g_i(x) 分别是漂移动力学和控制输入动力学。
假设1
给定一个紧集 \Omega \subset \mathbb{R}^n,设平衡点 x=0。函数 f(x), g_i(x) 是Lipschitz连续的,且 f(0)=0。以下边界成立 |f(x)|\leq b_f |x||g_i(x)|\leq b_g,其中 b_f > 0b_g > 0
定义1
对于多输入非线性系统,如果满足以下条件,则每个参与者 i 达到纳什均衡解 u_i^*
J_i^(x) = \min{u_i} J_i(x, u_i, u{-i}^)
价值函数定义为
V(x) = \int_t^{\infty} r(x(\tau), u_1(\tau), \ldots, u_N(\tau)) d\tau
其中 r(x, u_1, \ldots, u_N) = Q(x) + \sum_{i=1}^{N} u_i^T R_i u_i,且 Q(x) \geq 0, R_i > 0 是对称的。
事件触发控制简述
为了描述ET机制的原理,定义了一个严格递增的触发时刻序列 {t_k}_{k=0}^{\infty},初始时刻为 t_0。在每个触发时刻 t_k,系统的采样状态定义为 x(t_k)。实时计算当前系统状态与最新采样状态之间的偏差 e(t) = x(t) - x(t_k)。仅当误差 |e(t)| 超过预设阈值 \sigma |x(t)| 时,才触发下一次采样并重新计算控制输入。
ET最优控制策略为
u_i^(t) = -\frac{1}{2} R_i^{-1} g_i^T(x(t_k)) \nabla V^(x(t_k))
因此系统(1)变为
\dot{x}(t) = f(x(t)) + \sum_{i=1}^{N} g_i(x(t)) u_i^*(t)
假设2
(原文此处内容不完整,通常假设控制输入有界或系统满足某些稳定性条件)
自触发条件设计
基于定理1中建立的闭环稳定性,采用设计的ET条件(17),并通过严格的数学推导扩展到ST控制。根据当前状态 x(t_k) 和系统动力学模型 f(x),通过求解不等式直接预测下一个触发时间 t_{k+1}
定理2
考虑由(1)描述的Lipschitz连续动力系统,其中向量场满足Lipschitz条件。在定理1中定义的ET阈值下,ST规则(32)(原文未给出具体公式,通常是一个关于状态和时间的函数)被推导出来。
仿真实验
在本节中,两组仿真实验的结果将验证所提方法对多输入非线性系统的有效性。
例1
考虑以下多输入非线性系统,
\dot{x}_1 = -x_1 + x_2 + x_1 x_2 + u_1
\dot{x}_2 = -x_1 - x_2 + x_1^2 + u_2
其中 x = [x_1, x_2]^T, u_1, u_2 \in \mathbb{R}。系统初始化状态为 x_1(0) = 1, x_2(0) = -1,评判神经网络(Critic NNs)的学习率为 \alpha_c = 0.1,初始权重在 [-0.1, 0.1] 范围内均匀随机初始化,选择的激活函数为 \phi(x) = [x_1^2, x_1 x_2, x_2^2]^T,这遵循了文献中常用的多项式型基函数设计。
结论
为了解决多输入非线性系统的最优控制问题,本文提出了一种STADP算法。首先,利用IRL技术避免了对漂移动力学模型的依赖。然后,设计了一种新的ET条件以确保系统稳定性。在此基础上,严格推导了基于状态的自触发条件,并证明了Zeno现象的避免。最后,通过两个仿真实验证明了该算法的有效性。
此外,所提出的...
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号