基于策略迭代的异步控制技术:适用于具有隐藏模式观测特性的跳跃系统,并实现H∞级干扰衰减

《Cybernetics and Intelligence》:Policy-Iteration-Based Asynchronous Control of Jump Systems With Hidden Mode Observation and H∞ Disturbance Attenuation

【字体: 时间:2025年12月22日 来源:Cybernetics and Intelligence

编辑推荐:

  异步马尔可夫跳变系统模型-free策略迭代控制方法研究,提出双零和异步控制与干扰策略,通过数据驱动迭代求解代数Recatti方程,实现非严格时序对齐的控制器设计,有效避免系统内部和传输概率信息依赖,验证了算法单调收敛至最优解且系统均方稳态。

  

摘要:

本文研究了一种基于无模型策略迭代(PI)算法的异步控制设计,适用于一类离散时间隐马尔可夫跳跃系统。该算法利用隐马尔可夫模型来描述控制器模式与系统模式之间的异步现象。文中构建了一对零和异步控制与干扰策略,以实现价值函数与控制性能之间的权衡。所提出的方法具有两个关键特点:1) 异步PI算法不依赖于控制器与系统动态之间的严格时间对齐,从而提高了控制方案的灵活性;2) 该方法依靠收集的数据迭代求解代数Reccati方程,无需系统内部信息和传输概率信息,同时规避了耦合项的干扰。通过仿真实验验证了所设计的PI算法能够单调收敛到最优解,并且基于该最优解的系统在均方意义上具有随机稳定性。最后,本文通过直流电机设备系统的仿真实验验证了该方法的有效性。

引言

强化学习(RL)作为一种有效的决策和控制技术,在动态系统中得到了广泛应用。通过让智能体通过与环境的试错互动学习最优行为,RL在从机器人技术到制造业等多个领域取得了显著的成功[1]、[2]、[3]。目前,在控制领域已经开发出了多种RL算法,并有大量研究成果发表在文献中。例如,为了解决具有无限视界的线性二次跟踪问题,[4]中提出了一种基于Q学习的最优跟踪方法;[5]中提出了一种基于演员-评论家神经网络的离策略跟踪控制方案,用于解决无人驾驶飞行器的非仿射偏航跟踪问题;[6]中开发了一种数据驱动的RL策略,用于处理受未知动态影响的多智能体系统的最优共识控制问题;[7]中利用自适应动态规划(ADP)技术为未建模的非线性系统设计了自适应最优控制器;[8]中提出了一种基于阻尼牛顿法的策略迭代(PI)算法,用于处理线性二次调节(LQR)问题;[9]中则结合在线策略和离策略PI方法为线性系统设计了折扣最优控制方案。与传统基于模型的控制方法相比,RL在处理复杂动态系统时具有明显优势,尤其是在难以获得精确数学模型或系统存在显著不确定性和非线性时。这种能力使得RL特别适用于解决本质上复杂、随机或部分可观测的控制问题。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号