基于神经网络观测器与强化学习的分布式动态事件触发优化反步二分一致性控制研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月01日 来源：Neurocomputing 6.5

编辑推荐：

　　本文提出了一种创新的分布式动态事件触发控制策略，结合神经网络（NN）观测器和强化学习（RL）的批评-执行（critic-actor）结构，解决了非线性严格反馈多智能体系统（MASs）的二分一致性问题。通过设计无需Hurwitz稳定性约束的NN观测器，简化了状态估计；采用基于简单正函数梯度下降的优化反步（OB）算法，显著降低了计算复杂度；动态事件触发机制（DETM）有效减少了控制执行频率。仿真验证了该方案在实现资源节约与性能优化方面的优势。

Highlight
图论
多智能体系统（MASs）包含6个跟随者（标记为1-6）和1个领导者（标记为0）。图1展示了智能体间的通信拓扑结构。邻接矩阵显示，智能体间通过带符号的有向边连接，正/负权重分别表示合作/竞争关系。领导者动态为?₀=0.5sin(t)，跟随者系统建模为二阶非线性严格反馈形式。

神经网络状态观测器设计
针对仅输出状态可测的问题，设计了一种新型NN观测器：
为激活函数，ε为逼近误差。该设计避免了传统方法中构造Hurwitz多项式所需的常数矩阵，通过自适应律在线更新权重估计值?。

仿真结果
在6个跟随者的MAS中验证方案有效性：

初始位置：x₁(0)=[0.5,-0.3]^T, ..., x₆(0)=[-0.7,0.4]^T
NN参数：η=2, Γ=diag(0.5,0.5)
DETM阈值参数：κ=0.1, γ=0.05
结果显示，所有跟随者在15秒内实现与领导者的二分一致性（误差<0.01），且控制更新次数比静态触发机制减少43%。

结论
本方案通过NN观测器解决了状态不可测问题，RL驱动的优化反步控制提升了系统性能，动态事件触发机制显著降低了通信负载。该方法为具有竞争-合作混合关系的MAS控制提供了新思路。

利益冲突声明
作者声明无潜在利益冲突。

作者简介
滕傲，1999年生于中国合肥，2021年获安徽大学数学学士学位，现为北京交通大学博士生，研究方向包括强化学习、事件触发机制与多智能体系统。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号