
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于策略迭代的异步控制技术:适用于具有隐藏模式观测特性的跳跃系统,并实现H∞级干扰衰减
《Cybernetics and Intelligence》:Policy-Iteration-Based Asynchronous Control of Jump Systems With Hidden Mode Observation and H∞ Disturbance Attenuation
【字体: 大 中 小 】 时间:2025年12月22日 来源:Cybernetics and Intelligence
编辑推荐:
异步马尔可夫跳变系统模型-free策略迭代控制方法研究,提出双零和异步控制与干扰策略,通过数据驱动迭代求解代数Recatti方程,实现非严格时序对齐的控制器设计,有效避免系统内部和传输概率信息依赖,验证了算法单调收敛至最优解且系统均方稳态。
强化学习(RL)作为一种有效的决策和控制技术,在动态系统中得到了广泛应用。通过让智能体通过与环境的试错互动学习最优行为,RL在从机器人技术到制造业等多个领域取得了显著的成功[1]、[2]、[3]。目前,在控制领域已经开发出了多种RL算法,并有大量研究成果发表在文献中。例如,为了解决具有无限视界的线性二次跟踪问题,[4]中提出了一种基于Q学习的最优跟踪方法;[5]中提出了一种基于演员-评论家神经网络的离策略跟踪控制方案,用于解决无人驾驶飞行器的非仿射偏航跟踪问题;[6]中开发了一种数据驱动的RL策略,用于处理受未知动态影响的多智能体系统的最优共识控制问题;[7]中利用自适应动态规划(ADP)技术为未建模的非线性系统设计了自适应最优控制器;[8]中提出了一种基于阻尼牛顿法的策略迭代(PI)算法,用于处理线性二次调节(LQR)问题;[9]中则结合在线策略和离策略PI方法为线性系统设计了折扣最优控制方案。与传统基于模型的控制方法相比,RL在处理复杂动态系统时具有明显优势,尤其是在难以获得精确数学模型或系统存在显著不确定性和非线性时。这种能力使得RL特别适用于解决本质上复杂、随机或部分可观测的控制问题。
生物通微信公众号
知名企业招聘