
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于改进稳定化的奇异摄动系统最优控制:一种新型两阶段在线强化学习方法
【字体: 大 中 小 】 时间:2025年08月15日 来源:Neurocomputing 6.5
编辑推荐:
本文提出了一种针对奇异摄动系统(SPSs)的改进强化学习(RL)控制方案。通过引入可调参数重构系统动力学,结合策略迭代(PI)框架求解广义代数Riccati方程(GARE),设计了两阶段在线RL算法:第一阶段在线获取稳定控制增益,突破传统PI对初始稳定矩阵的依赖;第二阶段通过同伦映射实现最优控制,有效避免小参数导致的病态数值问题。该方案在汽车悬架和RC梯形电路系统中验证了其通用性与有效性。
Highlight
相较于单时间尺度系统,本研究针对改进初始稳定化的双时间尺度系统,通过参数α和β动态调节系统响应速度与性能指标成本,推导出更通用的GARE。现有文献中α=1或β=1的结果均为本研究的特例。
在PI框架内开发两阶段RL算法:阶段一利用实时数据在线求解初始稳定增益(突破[11-13,23-24]对初始条件的限制);阶段二通过同伦退化实现标准PI算法。通过参数对(α,β)的迭代次数与成本对比验证算法普适性。
当奇异摄动参数(SPP)趋近于零时,Matlab工具箱无法求解病态ARE。本文结合全阶变换法在线求解,巧妙规避SPP引起的数值不稳定问题。
Main Results
本节将探讨广义方程(6)(5)在SPS最优控制中的作用,通过理论推导证明算法在完全未知系统动力学时的稳定性、收敛性与最优性。
Illustrative Example
通过汽车悬架四分之一模型与RC梯形电路系统仿真:前者验证多时间尺度控制效果,后者展示算法在超小SPP(<10-6)下的数值稳定性。
Conclusion
本研究通过参数化系统重构,结合RL在线求解GARE,首次实现SPPs在响应速度、性能成本、稳定性与最优性四重目标下的协同调控。
(注:严格遵循术语标注规范,如SPPs=奇异摄动系统;保留原文α/-6等格式;删除文献引用[ ]及图示标识)
生物通微信公众号
知名企业招聘