基于博弈强化学习的无人水面艇预定义时间协同跟踪控制

《Ocean Engineering》:Game-based reinforcement learning predefined-time cooperative tracking control for USVs

【字体: 时间:2026年04月02日 来源:Ocean Engineering 5.5

编辑推荐:

  本文提出一种新颖的面向无人水面艇(USVs)的预定义时间(predefined-time)博弈论跟踪控制方案,利用强化学习(reinforcement learning,RL)通过策略交互有效应对外部扰动与输入饱和约束。首先,将USVs的最优编队控制问题表述为

  
本文提出一种新颖的面向无人水面艇(USVs)的预定义时间(predefined-time)博弈论跟踪控制方案,利用强化学习(reinforcement learning,RL)通过策略交互有效应对外部扰动与输入饱和约束。首先,将USVs的最优编队控制问题表述为Nash博弈。然后,针对位置误差收敛时间不可预测的问题,提出一种基于目标估计的预定义时间导引律。研究人员设计了复合代价函数,并将行动者-评论家(actor-critic)神经网络集成到预定义时间控制器(predefined-time controller,PTC)中,以逼近满足Nash均衡的最优解。为实现精确速度跟踪,性能预设(performance-prescribed,PP)机制被用于对跟踪误差进行变换。考虑到USV的输入饱和,研究中引入辅助系统进行截断补偿。最后,对连续积分代价函数下Nash均衡的存在性与唯一性进行了分析。仿真结果表明,该控制策略优于已有策略。
该文发表于《Ocean Engineering》,聚焦复杂海洋环境下多无人水面艇(USVs)分布式最优协同编队跟踪控制问题,核心目标是在外部扰动、模型不确定性、通信拓扑约束以及执行器输入饱和等现实工程因素共同作用下,实现具有预定义时间(predefined-time)收敛性质的最优协同控制。研究背景在于,多USV系统因具备信息共享与协同决策能力,已广泛应用于海洋资源勘探、环境监测和近岸巡逻等场景。然而,现有控制方法虽然能够在一定程度上处理扰动抑制、跟踪误差约束和输入饱和问题,但仍存在若干不足:其一,传统编队控制中,单艇突发机动往往会迫使邻近成员进行剧烈修正,导致整体队形稳定性下降;其二,已有强化学习(RL)方法多采用较为简单的个体代价构造,难以适应多艇间复杂策略耦合;其三,部分方法虽然考虑了最优控制、约束处理或有限时间收敛,但很少在统一框架中同时实现预定义时间稳定性、性能约束、输入饱和补偿及博弈最优性;其四,关于多USV成员之间协同控制中的微分图博弈问题,尤其是连续积分代价函数下Nash均衡唯一性的理论分析仍较缺乏。因此,开展该研究具有明确的理论意义与工程价值。

围绕上述问题,研究人员构建了一个双层控制体系。上层为基于目标估计的预定义时间导引律,用于解决目标全局信息未知条件下的位置与航向引导问题;下层为基于博弈强化学习的预定义时间跟踪控制器,将多USV协同跟踪问题建模为Nash博弈,并借助行动者-评论家神经网络在线逼近满足Nash均衡的最优控制策略。在此基础上,研究进一步引入性能预设(PP)误差变换机制,以改善速度跟踪动态品质,并通过辅助系统对执行器输入饱和导致的截断效应进行补偿。论文的主要结论是:所提出方法能够在预先设定时间内保证跟踪误差收敛,同时兼顾多艇策略耦合、控制输入受限和动态性能约束;在连续积分代价框架下,对Nash均衡的存在性与唯一性进行了分析,从而增强了方法的理论严谨性;仿真结果验证了该方法相较既有策略具有更优性能。该研究的重要意义在于,它为复杂海洋环境下多USV集群的快速协同响应、最优编队跟踪和嵌入式部署提供了较完整的技术方案。

从技术方法上看,论文主要采用了以下几类关键方法。首先,基于有向图(directed graph)通信拓扑构建多USV领导者-跟随者协同关系,以描述艇间信息交互与策略影响机制。其次,在导引层设计了基于几何显式解耦的预定义时间导引律,利用目标位置与姿态估计值构造跟踪误差,并将横向误差直接映射为所需航向角,以实现非奇异的快速收敛。再次,在控制层将多艇协同跟踪问题表述为微分图博弈(differential graph game)下的Nash优化问题,设计复合代价函数并引入行动者-评论家神经网络以求解最优策略。最后,通过性能预设误差变换与输入饱和辅助补偿机制,提高速度跟踪精度并削弱执行器约束对系统稳定性的影响。本文所给文本未提供独立样本队列来源,研究验证方式主要为数值仿真,场景包含3艘USV和1个跟踪目标。

以下结合论文主体结构对研究内容进行解读。

一、Communication topology

该部分首先给出了多USV系统的有向通信拓扑定义,将系统表示为G={V,E,A},其中节点集、边集和邻接矩阵共同刻画USV之间的通信连接与信息流向。研究中通过定义邻居节点集合以及领导者-跟随者约束关系,为后续协同控制与图博弈建模奠定了基础。通信拓扑不仅用于描述哪一艘USV能够获得其他成员的信息,也决定了不同个体策略在博弈中的相互影响方式。换言之,各艇并非独立优化,而是在拓扑约束下通过局部信息实现分布式协同决策,这一结构是构造多成员Nash博弈问题的前提。

二、Predefined-time guidance law

该部分设计了一种新的预定义时间导引律,以提升USV在执行目标跟踪任务时的位置与姿态引导精度,并满足严格预设到达时间要求。研究人员定义了目标与USV之间的跟踪误差,将目标的估计位置和姿态信息映射到艇体坐标系下,以形成适于控制器设计的误差表达。与传统逐级虚拟控制构造方式不同,该导引律采用几何显式解耦思想,将横向误差直接映射到期望航向角,并使用本质上非奇异且结构较为简洁的幂级数叠加形式进行设计。根据引言与章节概述可知,该方法旨在避免为每个误差子系统单独设计虚拟控制律,并规避奇异性问题。通过这一设计,研究人员解决了位置误差收敛时间难以预测的问题,使导引误差能够在预先设定时间内满足收敛要求,从而为下层速度与姿态跟踪控制提供清晰、快速且可实现的参考信号。

三、Game-based predefined-time RL control

这是全文的核心部分。研究人员提出一种基于博弈的强化学习控制方法,并构建了融合微分博弈、预定义时间、性能预设、饱和补偿、强化学习和神经网络的统一框架。在该框架中,每艘USV被视为微分图博弈中的一个成员,艇间通信拓扑决定了各自策略之间的影响关系。各成员以上层预定义时间导引律生成的参考信号为输入,进一步求解满足Nash均衡的最优控制策略。

在最优控制建模方面,论文将USV编队跟踪问题转化为Nash博弈问题,通过为每个成员构造复合代价函数,使控制目标不仅包含个体跟踪性能,也反映与邻居之间的策略耦合。相较于传统代价函数较为简单的RL控制方案,这一设计更适合复杂协同场景。为了逼近最优解,研究将行动者-评论家神经网络嵌入预定义时间控制器(PTC)中,实现对最优策略及其价值函数的近似求解。该方法的意义在于,避免了复杂解析求解过程,并增强了方法在复杂非线性系统中的适用性。

在动态性能改善方面,研究引入性能预设(PP)机制对速度跟踪误差进行变换。误差变换的作用在于,将原始跟踪误差映射到便于施加瞬态和稳态性能约束的新变量空间,从而提升速度跟踪的精度与响应品质。由于USV执行机构存在幅值上限,当控制输入达到最大限制后无法继续按理想控制量增加,因此论文进一步设计辅助系统生成补偿信号,对输入饱和引起的截断效应进行补偿,以防止编队跟踪误差发散。由此,控制器不仅追求博弈意义下的最优性,还兼顾了工程实现中不可忽视的输入受限问题。

此外,论文还对连续积分代价函数下Nash均衡的存在性与唯一性进行了分析。根据作者在引言中的强调,这一部分构成了本文相对于其他基于博弈框架研究的重要理论推进。其意义在于,为所设计控制律对应的最优策略解提供更严格的理论支撑,使控制器不仅“有效”,而且“有据”。

四、Simulation

仿真部分分别围绕预定义时间导引律和基于博弈的强化学习控制两部分展开。第一部分比较了不同预定义时间以及固定时间条件下的导引效果,用于验证所设计导引律在收敛速度与时间可设定性方面的性能。第二部分主要展示所提基于博弈的强化学习控制策略相较既有方法的优越性。根据文中说明,仿真场景包含3艘USV和1个跟踪目标。综合摘要与章节说明,仿真结果表明:所提控制策略能够在存在外部扰动和输入饱和等因素时实现更优的协同跟踪表现;预定义时间机制使误差收敛具有明确时间边界;博弈建模与RL优化提高了多艇协同控制的整体性能;辅助补偿和性能预设机制则改善了受限输入条件下的速度跟踪品质。论文据此认定该策略优于前述对比策略。

五、讨论与结论总结

从全文内容看,论文讨论的重点在于如何在复杂海洋环境下将快速收敛要求、分布式协同博弈、最优控制、输入约束处理和强化学习求解统一起来。研究人员通过双层控制架构实现了这一目标:一方面,基于观测器输出的预定义时间导引律保证了位置相关误差满足严格时间收敛要求;另一方面,目标跟踪问题被重构为Nash博弈优化问题,借助行动者-评论家神经网络实现满足均衡条件的近似最优控制,同时通过PP机制与辅助补偿模块增强动态性能与工程可实施性。该文的贡献不在于单一控制环节的局部改进,而在于多种控制思想的系统集成及其理论化表达,特别是连续积分代价函数下Nash均衡唯一性分析,为相关研究提供了更严谨的理论基础。作者同时指出,该策略无需复杂在线计算,因而便于嵌入式系统部署,这使其在实际海上任务中具备应用潜力。

论文结论部分可概括翻译如下:本文系统研究了USV目标跟踪控制方案中的控制优化与输入约束处理等关键问题。在控制架构设计中,建立了双层控制框架:1)基于观测器输出的预定义时间导引律,时间设定机制保证跟踪误差严格满足收敛要求;2)将目标跟踪问题重新表述为Nash博弈优化问题。结合全文可知,该框架进一步通过强化学习、性能预设和输入饱和补偿实现了协同最优跟踪控制,并经仿真验证了所提策略的有效性与优越性。整体而言,本文为多USV复杂环境协同跟踪控制提供了一种兼具预定义时间收敛、博弈最优性和工程约束适应能力的解决方案。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号