基于输入 - 输出测量数据的离散时间线性系统容错 Q 学习:为工程系统安全稳定运行保驾护航

【字体: 时间:2025年05月12日 来源:Franklin Open

编辑推荐:

  在工程系统中,执行器和传感器故障问题频发,严重影响系统性能。研究人员开展 “Fault - tolerant Q - learning for discrete - time linear systems with actuator and sensor faults using input - output measured data” 研究,提出新算法,可实现系统最优控制与稳定,为工程系统的可靠运行提供了新方案。

  在当今复杂的工程世界里,许多关键的工程系统,如飞机飞行控制、航天器以及电力系统等,都像是精密而又脆弱的 “巨人”。它们常常在充满挑战的环境中运行,长时间暴露在复杂多变且具有破坏性的条件下,这使得执行器和传感器等关键控制部件极易出现故障。一旦这些部件出现问题,整个系统的性能就会大打折扣,甚至可能导致系统完全瘫痪。就好比飞机的飞行控制如果出现故障,那飞机的飞行安全将受到严重威胁;航天器的传感器失灵,其对太空环境的探测和任务执行也会陷入困境。传统的容错控制(Fault - Tolerant Control,FTC)方法,虽然在一定程度上能解决问题,但大多存在依赖精确的系统模型、需要获取故障详细信息以及依赖全状态测量等局限性。这些局限性就像一道道枷锁,限制了它们在实际应用中的效果。因此,寻找一种更有效的方法来解决工程系统的容错控制问题迫在眉睫。
为了突破这些困境,有研究人员开展了关于 “Fault - tolerant Q - learning for discrete - time linear systems with actuator and sensor faults using input - output measured data” 的研究。该研究取得了重要成果,提出了一种新颖的输出反馈 Q 学习算法,此算法可不依赖明确的系统模型、全状态测量以及执行器和传感器故障信息,就能实现系统的最优控制和稳定,这为工程系统的可靠运行带来了新的曙光。该研究成果具有重要意义,为工程领域的容错控制提供了创新的思路和方法,对保障各类工程系统的安全稳定运行有着极大的推动作用。该论文发表在《Franklin Open》上。

研究人员在开展此项研究时,运用了多种关键技术方法。首先是基于输入 - 输出数据的系统建模技术,通过对离散时间线性系统输入 - 输出数据的分析,构建系统模型,为后续研究奠定基础;其次,利用强化学习(Reinforcement Learning,RL)中的 Q 学习算法,通过不断试错和优化策略,寻找最优控制方案;此外,还运用了数学推导和理论证明的方法,对算法的收敛性、稳定性等关键特性进行分析。

研究结果


  1. 系统和故障建模:研究人员对离散时间线性系统进行了详细的状态空间表示(xk+1=Axk+Bukfyk=Cxk),并分别对执行器和传感器故障进行建模。执行器故障建模为uf=(Im?E)uc,其中E表示执行器的失效程度;传感器故障建模为ykf=(Ip?α)yk=(Ip?α)Cxkα表示传感器的失效程度。通过这些建模,全面描述了系统在故障情况下的运行状态。
  2. 模型 - 基于最优 FTC 解决方案:定义了无限时域 FTC 价值函数(V(xk)=i=krk(xi,uc,i)),并通过求解相关优化问题,得出最优 FTC 策略(uc,k=?Kxk)。这里的K通过求解 Fault - Tolerant Discrete Algebraic Riccati Equation(FT - DARE)得到。该策略在已知系统动力学、全状态测量以及故障信息的情况下,能实现系统的最优控制。
  3. 输出反馈容错 Q 函数:为了实现不依赖系统状态的最优控制,研究人员开发了基于输入 - 输出形式的容错 Q 函数(Fault - Tolerant Q - function,FTQF)。通过一系列推导,将 FTQF 表示为关于输入 - 输出数据的形式(F(uc,k?1,k?N,yk?1,k?Nf,uc,k)=zkTMzk),并证明了由此得出的最优输出反馈 FTC 策略与最优状态反馈 FTC 策略相等,这意味着即使在系统动力学和故障信息未知的情况下,也能实现最优控制。
  4. 在线 Q 学习用于输出反馈 FTC:研究人员提出了一种输出反馈容错 Q 学习方法,利用从故障系统轨迹中获取的数据样本,基于估计理论近似 FTQF。通过递归构建 FTQF 的 Bellman 方程,实现了在线求解最优控制策略,进一步验证了算法在实际应用中的可行性。

研究结论与讨论


研究提出的基于输入 - 输出测量数据的离散时间线性系统容错 Q 学习算法,成功解决了传统方法依赖系统模型、全状态测量和故障信息的问题。该算法不仅能有效处理执行器和传感器故障,还能在无折扣因子的情况下,保证闭环系统的稳定性并收敛到最优解。这一成果在工程领域具有广泛的应用前景,为飞机、航天器、电力系统等工程系统的容错控制提供了切实可行的新方案。它有助于提高系统的可靠性和安全性,降低因故障导致的系统失效风险,从而保障相关工程活动的顺利进行。同时,该研究也为后续在容错控制领域的研究提供了重要的参考和借鉴,推动了该领域的进一步发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号