基于改进的RRT*算法及符合COLREGs标准的SAC算法的无人水面车辆的层次化全局-局部路径规划

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Ocean Engineering》：Hierarchical global-local path planning for unmanned surface vehicles via improved RRT* and COLREGs-compliant SAC

【字体：大中小】 时间：2026年01月16日 来源：Ocean Engineering 5.5

编辑推荐：

　　提出分层混合路径规划框架，结合改进RRT*全局规划与COLREGs合规SAC局部控制，解决动态障碍避让和规则遵守问题，仿真验证其在狭窄及开放水域中效率、路径质量及合规性优于传统方法，成功率超95%，合规率约90%。

赵宇恒|朱成凯|党家伟|肖刚

机构：上海交通大学航空航天学院，地址：上海交通大学，城市：上海，邮编：200240，国家：中国

摘要

无人水面航行器（USVs）在自主导航方面面临重大挑战，包括移动障碍物、环境不确定性以及严格遵守《国际防止船舶碰撞规则》（COLREGs）的要求。为了解决这些问题，本文提出了一种分层混合路径规划框架，该框架结合了改进的快速探索随机树*（RRT*）进行全局路径生成，以及符合COLREGs的软演员-评论家（SAC）进行局部动态避障。改进的RRT*引入了目标导向采样、自适应步长调整和安全约束的重连机制，即使在大型复杂环境中也能加速收敛并生成更平滑的近似最优全局路径。基于SAC的局部规划器结合了规则形状的奖励和多模态状态编码器，使得在移动障碍物存在的情况下能够进行高效、可解释且符合规则的机动操作。在封闭水域和开放水域场景中的仿真结果表明，所提出的框架在规划效率、路径质量和规则遵从性方面均优于基线方法（A*、RRT和传统SAC）。该框架在多种遭遇情况下的成功率超过95%，COLREGs遵从性约为90%，证明了其作为安全、高效和合法USV导航方案的可靠性。

引言

近年来，无人水面航行器（USVs）在港口监控、海上巡逻、搜救行动和军事任务等多个领域受到了广泛关注。与无人地面车辆和空中无人机相比，USVs在复杂海洋环境中自主导航时面临更大的挑战。一方面，海洋条件具有高度动态性，周围船舶的速度和航向可能发生不可预测的变化；另一方面，USVs必须严格遵守《国际防止船舶碰撞规则》（COLREGs）以确保合法和安全的导航行为（Jiankun等人，2025年）。因此，实现同时保证全局最优性、局部实时适应性和规则遵从性的路径规划已成为学术界和工业界关注的核心问题。

传统的路径规划方法（Xing等人，2023年），如A*、D*和快速探索随机树（RRT）及其最优变体RRT*，在静态环境中表现良好。特别是RRT*具有渐进最优性，使得生成的道路能够逐渐收敛到全局最优解。然而，在具有动态障碍物的大规模海洋环境中，这些经典方法仍存在两个根本性限制：

(1) 在障碍物分布复杂且任务区域较大的情况下，这些算法收敛缓慢，往往无法在合理的时间内产生近似最优解。

(2) 这些算法缺乏动态避障的适应性；当高速移动障碍物出现时，基于采样的规划器通常无法及时更新决策。

与此同时，深度强化学习（DRL）方法，尤其是软演员-评论家（SAC），在连续控制和复杂策略学习方面展示了显著的潜力。SAC引入了最大熵优化来增强策略探索并减少训练过程中的不稳定性。然而，直接将SAC应用于USV路径规划也会带来新的挑战：

(1) 在远程任务中，稀疏的奖励会导致收敛效果差和局部最优解的形成；

(2) 如果奖励函数中没有明确编码COLREGs约束，学习到的策略可能会优先考虑避障，而忽略规则遵从性，从而在实际部署中导致潜在的不安全或非法行为。

为了解决这些挑战，本研究提出了一种分层混合路径规划框架，将改进的RRT*全局规划器与符合COLREGs的SAC局部控制器相结合。目标是实现可靠的远程规划和实时动态障碍物避障，同时确保合法导航。主要贡献如下：

(1) 一种提高远距离最优性的全局规划方法。改进的RRT*算法旨在克服传统基于采样的规划器收敛缓慢的问题。它使用目标导向采样、自适应步长控制和安全意识的重连机制，即使在任务区域大且障碍物分布复杂的环境中也能更高效地找到近似最优全局路径。

(2) 一种适用于动态环境的实时局部规划控制器。引入了软演员-评论家（SAC）代理来实时优化轨迹。奖励函数编码了关键的COLREGs原则，使策略能够进行安全、合规且连续的航向和速度调整。这种设计使USV能够快速响应高速移动障碍物和意外遭遇，解决了传统规划器缺乏适应性的问题。

通过将全局优化与实时控制相结合，所提出的框架提供了一个平衡的解决方案。它生成高质量的全局路径，并确保响应迅速、符合规则的局部行为。这种组合支持在复杂和动态的海洋环境中安全高效的USV导航。

本文的其余部分安排如下：第2节回顾相关背景和先前的研究；第4节详细介绍了所提出的方法；第5节描述了仿真设置并通过仿真和可视化分析讨论了结果；最后，第6节总结了研究发现和未来展望。

部分摘录

背景和相关工作

无人水面航行器（USVs）在海洋监测、搜救、港口运营和海上防御等领域的应用日益增多。与空中或地面机器人相比，USVs在长距离、干扰多的水域中运行，必须避开密集的海上交通并遵守《国际防止船舶碰撞规则》（COLREGs）。因此，实现安全、高效且符合规则的规划仍然是一个核心挑战。我们将相关工作分为三个方面：

•

USV运动建模

在本研究中，将无人水面航行器（USV）在二维平面上的运动描述为一个由推进力驱动的非完整动态系统。状态空间和动作空间都以连续形式定义。时间t时的USV状态表示为

s_{t} = {[x_{t}, y_{t}, v_{t}, ψ_{t}]}^{T}

其中(x_t, y_t)表示USV在全局坐标系中的位置，v_t是纵摇速度，ψ_t是航向角。控制输入包括线性加速度a_t和角速度

分层混合路径规划框架

本研究提出了一种分层混合路径规划框架，有机地整合了全局路径规划、局部策略控制和规则遵从机制。该框架旨在解决远程海上导航中的两个关键挑战：强化学习收敛效果差和全局规划最优性有限的问题。同时，它确保在动态环境中有效避障并严格遵守

仿真环境和平台

为了评估所提出的分层混合路径规划框架，在一个用Python实现的定制无人水面航行器（USV）平台上进行了仿真。该平台包括两个环境：一个短车道微环境（USVShortLaneEnv）和一个大规模海洋环境（USVPathPlanningEnv）。两者都集成了改进的RRT*全局规划器和软演员-评论家（SAC）局部控制器。

结论

本文提出了一种用于无人水面航行器（USVs）的分层混合路径规划框架，结合了改进的RRT*全局规划器和符合COLREGs的软演员-评论家（SAC）局部控制器。全局规划器通过目标导向采样、自适应步长控制和安全意识的重连机制提高了收敛效率和路径可行性。局部规划器采用多模态观测编码器和规则形状的奖励机制，使得学习到的策略能够

CRediT作者贡献声明

赵宇恒：撰写 – 审稿与编辑，撰写 – 原始草稿，可视化，软件，方法论，调查，形式分析，数据管理，概念化。朱成凯：可视化，软件，项目管理。党家伟：撰写 – 审稿与编辑，数据管理，概念化，形式分析，可视化。肖刚：监督，资源提供。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言