基于滑模控制与稳定性引导的深度强化学习在不确定非线性动态系统控制中的应用研究

《IEEE Access》:SMC-Based, Stability-Guided Deep Reinforcement Learning for Control of Uncertain Nonlinear Dynamic Systems

【字体: 时间:2025年11月28日 来源:IEEE Access 3.6

编辑推荐:

  本文针对不确定非线性动态系统的控制难题,提出了一种融合滑模控制(SMC)稳定性理论与深度强化学习(DRL)的新型框架——SMC-based, Stability-Guided Deep Reinforcement Learning (SSG-RL)。研究通过将显式Lyapunov递减项和滑模变量嵌入奖励函数,引导智能体学习兼具稳定性和鲁棒性的控制策略,并应用于磁力矩器驱动的欠驱动卫星姿态控制问题。高保真仿真与硬件在环(HIL)实验表明,SSG-RL在跟踪精度、收敛速度与能量效率方面均优于传统SMC及标准DRL算法,为航空航天、机器人等安全关键领域的智能控制提供了新思路。

  
在自主系统日益重要的今天,航空航天和机器人等领域对实时决策、精确控制以及适应不确定环境的能力提出了极高要求。然而,传感器噪声、模型不精确以及未知干扰等不确定性因素,使得传统控制方法如PID、线性二次调节器(LQR)和滑模控制(SMC)在面对复杂非线性系统时常显得力不从心。SMC虽对匹配不确定性具有鲁棒性,但存在抖振问题且需保守的增益整定,导致能耗高、性能下降。这些问题在小天体探测等扰动显著的环境中尤为突出,例如小行星附近存在的复杂引力动力学、第三体摄动和尘埃尾迹效应,对控制系统的稳健性构成了严峻挑战。
磁力矩器作为一种无燃料、低功耗的执行机构,通过与环境磁场相互作用产生控制力矩,是卫星姿态控制的理想选择。然而,其产生的力矩始终垂直于当地磁场方向,导致系统本质上是欠驱动的。加之小行星近场磁环境的强不确定性和模型误差,使得基于磁力矩器的精确姿态控制成为一个极具挑战性的课题。数据驱动控制方法,特别是强化学习(RL),为处理此类复杂非线性系统和未知扰动提供了新途径。深度强化学习(DRL)通过神经网络作为函数近似器,提升了RL的性能。然而,许多DRL方法缺乏理论上的稳定性保证,这在控制系统的安全性和可靠性至关重要的深空任务中是不可接受的。
为了解决上述挑战,MAHYA RAMEZANI等研究人员在《IEEE Access》上发表了题为“SMC-Based, Stability-Guided Deep Reinforcement Learning for Control of Uncertain Nonlinear Dynamic Systems”的研究论文。该研究提出了一种名为SSG-RL的新型控制框架,旨在将传统控制的稳定性见解与强化学习的适应性相结合,以应对不确定非线性动态系统的控制问题。
为开展研究,作者主要采用了以下关键技术方法:1. 基于Twin Delayed Deep Deterministic Policy Gradient (TD3)算法的深度强化学习框架,利用其双Q网络结构和延迟策略更新来缓解过估计偏差,提高训练稳定性。2. 创新的奖励函数设计,将滑模控制(SMC)的滑模变量(σ(t) = ωe(t) + Λqe(t))和显式的离散时间Lyapunov递减项(ΔVt)直接嵌入奖励函数中,引导策略学习稳定且鲁棒的行为,无需运行时滤波器或二次规划(QP)优化。3. 针对欠驱动卫星姿态控制问题,建立了包含姿态误差、角速度误差和磁场模型误差的系统状态空间,并将TD3网络输出的连续动作离散化映射到磁力矩器的有限指令集({-10, 0, 10})。4. 通过高保真数值仿真(使用小行星951 Gaspra的多面体离散化磁场模型)和混合3自由度(3-DOF)硬件在环(HIL)实验(结合EduSat卫星平台和亥姆霍兹线圈)对算法性能进行验证。
II. PROBLEM STATEMENT
研究将航天器绕小行星的姿态控制问题建模为一个马尔可夫决策过程(MDP)。系统动力学由基于四元数的姿态运动学方程和包含控制力矩与干扰力矩的刚体旋转动力学方程(Jω?(t) = -ω(t) × Jω(t) + Nc(t) + Nd(t))描述。控制力矩由磁力矩器产生的磁矩(μc)与环境磁场(B(t))的叉乘(Nc(t) = μc(t) × B(t))决定。小行星(以951 Gaspra为例)的磁场通过多面体离散化方法进行高精度近似,以模拟其不规则形状和自退磁效应带来的近场磁环境不确定性。控制目标是在存在模型不确定性和执行器离散化约束的前提下,实现精确的姿态跟踪、能量感知和时间最优的性能。
III. METHODOLOGY
SSG-RL方法的核心在于其奖励函数设计。该方法没有采用外部约束或运行时过滤器来保证稳定性和安全性,而是将SMC的滑模变量和一个显式的离散时间Lyapunov递减项(ΔVt)直接编码在奖励函数内部。基础奖励函数(RB)包含了对姿态误差、角速度误差、滑模变量的惩罚项,一个模仿理想SMC控制律(uSMC)的正则化项,一个鼓励系统状态进入滑模面边界层的奖励项,以及一个鼓励快速收敛的时间惩罚项。总奖励函数(RT)在此基础上增加了一项对Lyapunov函数递增(ΔVt > 0)行为的重惩罚(-wV max{0, ΔVt}),从而在训练过程中显式地引导策略学习能保证Lyapunov函数递减的动作。理论分析表明,当Lyapunov递减权重(wV)足够大时,最优策略将几乎必然地避免使Lyapunov函数增加,从而在期望意义下保证系统的实际稳定性。研究采用TD3算法进行策略学习,并将其连续动作输出离散化以适应磁力矩器的实际指令集。
IV. EXPERIMENT
实验评估包括数值仿真和硬件在环(HIL)测试。仿真环境中,一个1.8 kg的立方星在小行星951 Gaspra的近场磁环境中进行姿态控制。训练使用一个简化精度(20%面片)的磁场模型,而测试则使用高精度(4595个面片)模型以验证算法的泛化能力。HIL实验采用混合3-DOF设置,其中Z轴控制通过安装在空中轴承台上的EduSat卫星物理实现,X和Y轴控制则在软件中仿真,亥姆霍兹线圈用于复现小行星磁场。
结果表明,SSG-RL控制器在收敛时间、稳态姿态/角速度误差和控制能量消耗方面均优于传统的固定增益SMC、标准TD3、DDPG以及作为额外基线的Lyapunov约束TD3和自适应SMC。具体而言,SSG-RL实现了更快的角速度阻尼(在4圈轨道内稳定,而SMC需要约10圈),更低的稳态误差(角度误差:1.30°±0.18°;角速度误差:0.14°/s ± 0.02°/s),以及更高的能量效率(相较于SMC能耗降低18.7%±1.8%)。HIL实验结果进一步证实了SSG-RL在存在实际硬件延迟、噪声和扰动情况下的有效性和鲁棒性,能够快速从扰动中恢复,而SMC则因模型不确定性偶尔产生反向扭矩,延长稳定时间。
V. CONCLUSION
本研究提出的SSG-RL框架成功地将滑模控制的结构性优势与深度强化学习的数据驱动学习能力相结合,为不确定非线性动态系统,特别是欠驱动、资源受限的系统(如使用磁力矩器的卫星)提供了一种稳定、高效且鲁棒的控制方案。通过将滑模变量惩罚、对SMC控制律的模仿以及显式的Lyapunov递减指导集成到奖励函数中,SSG-RL在保证实际稳定性的同时,实现了优于传统方法和现有稳定性感知DRL方法的控制性能。该方法的公式与执行器类型无关,可推广至反作用轮或推力器等其他执行机构。尽管存在训练成本较高、超参数需微调以及对未建模动力学和校准误差敏感等局限性,但SSG-RL在仿真和HIL实验中的优异表现,展示了将鲁棒控制理论与数据驱动学习技术相结合在提升安全关键控制系统性能方面的巨大潜力,为未来在更复杂场景(如耦合运动学与姿态动力学)中的应用奠定了基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号