近年来,无人水面航行器(USVs)在港口监控、海上巡逻、搜救行动和军事任务等多个领域受到了广泛关注。与无人地面车辆和空中无人机相比,USVs在复杂海洋环境中自主导航时面临更大的挑战。一方面,海洋条件具有高度动态性,周围船舶的速度和航向可能发生不可预测的变化;另一方面,USVs必须严格遵守《国际防止船舶碰撞规则》(COLREGs)以确保合法和安全的导航行为(Jiankun等人,2025年)。因此,实现同时保证全局最优性、局部实时适应性和规则遵从性的路径规划已成为学术界和工业界关注的核心问题。
传统的路径规划方法(Xing等人,2023年),如A*、D*和快速探索随机树(RRT)及其最优变体RRT*,在静态环境中表现良好。特别是RRT*具有渐进最优性,使得生成的道路能够逐渐收敛到全局最优解。然而,在具有动态障碍物的大规模海洋环境中,这些经典方法仍存在两个根本性限制:
(1) 在障碍物分布复杂且任务区域较大的情况下,这些算法收敛缓慢,往往无法在合理的时间内产生近似最优解。
(2) 这些算法缺乏动态避障的适应性;当高速移动障碍物出现时,基于采样的规划器通常无法及时更新决策。
与此同时,深度强化学习(DRL)方法,尤其是软演员-评论家(SAC),在连续控制和复杂策略学习方面展示了显著的潜力。SAC引入了最大熵优化来增强策略探索并减少训练过程中的不稳定性。然而,直接将SAC应用于USV路径规划也会带来新的挑战:
(1) 在远程任务中,稀疏的奖励会导致收敛效果差和局部最优解的形成;
(2) 如果奖励函数中没有明确编码COLREGs约束,学习到的策略可能会优先考虑避障,而忽略规则遵从性,从而在实际部署中导致潜在的不安全或非法行为。
为了解决这些挑战,本研究提出了一种分层混合路径规划框架,将改进的RRT*全局规划器与符合COLREGs的SAC局部控制器相结合。目标是实现可靠的远程规划和实时动态障碍物避障,同时确保合法导航。主要贡献如下:
(1) 一种提高远距离最优性的全局规划方法。改进的RRT*算法旨在克服传统基于采样的规划器收敛缓慢的问题。它使用目标导向采样、自适应步长控制和安全意识的重连机制,即使在任务区域大且障碍物分布复杂的环境中也能更高效地找到近似最优全局路径。
(2) 一种适用于动态环境的实时局部规划控制器。引入了软演员-评论家(SAC)代理来实时优化轨迹。奖励函数编码了关键的COLREGs原则,使策略能够进行安全、合规且连续的航向和速度调整。这种设计使USV能够快速响应高速移动障碍物和意外遭遇,解决了传统规划器缺乏适应性的问题。
通过将全局优化与实时控制相结合,所提出的框架提供了一个平衡的解决方案。它生成高质量的全局路径,并确保响应迅速、符合规则的局部行为。这种组合支持在复杂和动态的海洋环境中安全高效的USV导航。
本文的其余部分安排如下:第2节回顾相关背景和先前的研究;第4节详细介绍了所提出的方法;第5节描述了仿真设置并通过仿真和可视化分析讨论了结果;最后,第6节总结了研究发现和未来展望。