
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于数据驱动的非线性约束互联系统分散控制:强化学习框架下的不对称输入约束解决方案
【字体: 大 中 小 】 时间:2025年07月02日 来源:Neural Networks 6.0
编辑推荐:
本文针对具有不对称输入约束的失配互联非线性系统,提出了一种基于强化学习(RL)的数据驱动分散控制策略。研究通过构建辅助子系统的无约束最优控制问题,结合策略迭代(PI)算法和演员-评论家(actor-critic)神经网络结构,实现了无需全局系统先验知识的离线控制方案。该成果突破了传统方法对输入矩阵Bi(0)=0的限制,在智能电网等复杂系统中有重要应用价值。
在智能电网、交通网络等复杂系统中,多子系统间的强耦合与非线性特性使得集中式控制难以实施。更棘手的是,实际系统中的执行器往往存在不对称输入约束(如电压调节器的上下限不等),传统控制方法要么忽略这些约束导致稳定性风险,要么依赖全局信息而难以扩展。现有基于自适应动态规划(ADP)的分散控制方案多针对无约束或匹配条件系统,对Bi(0)≠0的失配约束系统尚缺乏有效解决方案。
针对这一挑战,中国研究人员在《Neural Networks》发表的研究提出创新性解决方案。通过将原系统转化为辅助子系统的最优控制问题,结合加权残差法和蒙特卡洛积分技术,开发了基于强化学习的离线算法。关键技术包括:1) 构建含伪逆矩阵Bi+(xi)的辅助子系统模型;2) 采用演员-评论家神经网络同步更新策略和价值函数;3) 设计数据驱动的策略迭代(PI)算法求解哈密顿-雅可比-贝尔曼方程(HJBE)。
问题转化
研究首先证明原系统的分散控制律可分解为辅助子系统的无约束最优控制问题。通过引入伪逆矩阵Bi+(xi)和辅助控制变量?i,将不对称约束ui∈Ui转化为标准最优控制框架。
数据驱动的PI算法
提出的策略迭代算法通过交替求解HJBE和更新控制策略收敛至最优解。定理2证明当初始策略可行时,算法能保证Vi(k)(xi)→Vi*(xi)。
演员-评论家结构实现
采用神经网络分别逼近价值函数V?i(k)(xi)和控制策略μi(k+1)(xi)、?i(k+1)(xi)。通过加权残差法直接求解网络权重,避免了传统强化学习对持续激励(PE)条件的要求。
仿真验证
以多区域电力系统为例,控制目标为调节频率偏差Δfi(t)和输出功率ΔPi。结果显示所提方法在Tgi、Rgi等参数未知情况下,仍能保证各子系统在[-aip,bip]不对称约束下的稳定性。
该研究首次实现了对Bi(0)≠0失配约束系统的数据驱动控制,其离线特性降低了计算负担。相比Huo等(2024)的方案,本文方法不依赖全局系统信息,在智能电网频率调节等领域具有应用潜力。未来可进一步研究该框架在存在执行器故障时的鲁棒性扩展。
生物通微信公众号
知名企业招聘