基于强化学习的快速双树RRT路径规划在无人水下车辆中的应用
《Ocean Engineering》:Reinforcement learning-based fast-dual-tree RRT path planning for unmanned underwater vehicles
【字体:
大
中
小
】
时间:2025年10月08日
来源:Ocean Engineering 5.5
编辑推荐:
提出基于强化学习的快速双树RRT算法,通过改进经验回放机制和运动可达性采样策略,有效降低计算成本并提高路径可行性,在二维湖泊和三维海洋环境中验证了其优越性。
在当今快速发展的科技背景下,海洋资源的探索、开发与利用已成为各国关注的重点领域。随着人工智能和自动化技术的不断进步,无人水下航行器(Unmanned Underwater Vehicles, UUVs)正逐渐成为执行复杂水下任务的重要工具。这些航行器不仅需要具备高度的自主性,还需在动态且复杂的水下环境中实现高效、安全的路径规划。然而,传统路径规划方法在面对高维空间、动态障碍物以及复杂的运动约束时,往往面临计算成本高、路径质量差等问题,难以满足实际应用需求。
为了解决上述挑战,本文提出了一种基于强化学习的快速双树快速探索随机树(Reinforcement Learning-Based Fast-Dual-Tree Rapidly-Exploring Random Tree, RL-FDTRRT)算法,旨在生成满足运动约束的可行且优化路径。该算法通过引入强化学习策略,结合双树结构,有效提升了路径规划的效率和质量。具体而言,该方法采用了一个工作空间树和一个状态空间树的结构,其中工作空间树用于指导采样过程,减少冗余采样,而状态空间树则通过基于运动可达性的父节点搜索策略,计算出满足运动约束的路径。此外,算法还引入了偏置因子,以确保其概率完备性。通过在二维湖泊地图和三维海洋地图上的实验验证,结果表明RL-FDTRRT算法在路径可行性与计算效率方面优于其他基于RRT的算法。
路径规划问题的定义是本研究的基础。UUVs的路径规划问题可以描述为:在给定的环境空间中,找到一条从起点到终点的路径,使得该路径不仅避开障碍物,还满足航行器的运动约束。这里的环境空间通常包括水下地形、海洋流体动力学特性以及潜在的动态障碍物。因此,我们需要将环境空间划分为无障碍区域和障碍区域,以确定可行的路径范围。无障碍区域通常由起点和终点的可达性定义,而障碍区域则由环境中的障碍物占据。这种划分有助于我们更清晰地理解路径规划的边界条件,并为后续算法设计提供理论依据。
在实际应用中,路径规划不仅需要考虑几何可达性,还需兼顾运动动力学特性。例如,UUVs在水下移动时,其速度、加速度、转向能力等都会受到水流、海洋温度、压力等因素的影响。因此,传统的基于几何的方法往往无法充分考虑这些因素,导致生成的路径在实际运行中不可行。为了解决这一问题,研究者们引入了基于运动动力学的路径规划方法,即所谓的“运动可达性”路径规划。这类方法在路径生成过程中,不仅关注几何上的可达性,还考虑了航行器在动态环境中的运动能力,从而提高了路径规划的准确性与实用性。
本文提出的RL-FDTRRT算法正是基于这一思路。它将强化学习引入到路径规划过程中,通过智能策略优化采样方向和路径生成方式。强化学习是一种模仿人类学习行为的机器学习方法,它通过与环境的交互来学习最优策略。在路径规划中,强化学习可以用于评估不同路径的可行性与效率,并通过不断调整策略来提升整体性能。本文采用了一种改进的TD3(Twin Delayed Deep Deterministic Policy Gradient)算法,该算法在训练过程中引入了增强的经验回放机制,以加速奖励函数的收敛速度,并指导采样过程,使算法能够更有效地避开障碍物。
在路径规划过程中,如何高效地进行采样是关键问题之一。传统RRT算法采用均匀随机采样,虽然在理论上可以保证概率完备性,但在实际应用中,这种采样方式可能导致大量的无效采样,从而增加计算负担。为了解决这一问题,本文提出了一个基于工作空间树的采样策略,该策略通过强化学习算法对采样方向进行引导,从而减少不必要的采样次数,提高算法的运行效率。同时,为了进一步优化路径生成过程,算法在状态空间树中引入了基于运动可达性的父节点搜索策略,即在扩展树时,优先选择那些能够实现运动可达性的节点作为父节点,从而确保生成的路径不仅可行,而且在路径长度和计算效率方面具有优势。
在算法设计中,如何平衡路径的可行性与最优性也是一个重要课题。传统的RRT*算法虽然能够逐步优化路径质量,但其早期阶段仍然依赖于均匀随机采样,导致初始路径可能不够理想,且收敛速度较慢。为此,本文借鉴了多种启发式采样策略,如Informed RRT*和Batch Informed Trees(BIT*),这些方法通过利用已知的启发信息,将采样范围限制在更有可能生成有效路径的区域,从而加快收敛速度并提高路径质量。此外,本文还引入了偏置因子,该因子在采样过程中对路径的生成方向进行调整,以确保算法在复杂环境中仍能保持概率完备性。
在实验验证方面,本文构建了两个具有代表性的仿真环境:一个是基于中国千岛湖区域的真实水下地形数据的二维湖泊地图,另一个是围绕西沙群岛的三维海洋地图。这两个环境分别代表了不同复杂度的水下场景,有助于全面评估RL-FDTRRT算法的性能。实验结果表明,该算法在路径可行性、计算效率以及路径质量方面均优于现有的基于RRT的算法。特别是在处理密集障碍物分布的情况下,RL-FDTRRT算法表现出更强的适应能力,能够更快速地生成可行路径,同时保持较低的计算成本。
路径规划算法的性能不仅取决于其生成路径的质量,还与初始解的获取速度密切相关。因此,本文在算法设计中特别关注了初始解的优化问题。通过引入基于强化学习的策略,算法能够在较短时间内找到较为理想的初始路径,从而减少后续优化过程中的计算量。此外,为了进一步提升路径规划的整体效率,本文还对经验回放机制进行了改进,使得算法能够在训练过程中更有效地利用历史数据,加速收敛速度,并提高路径规划的稳定性。
在实际应用中,路径规划算法还需要具备良好的鲁棒性和适应性。这意味着算法不仅要能够处理静态环境中的障碍物,还需具备应对动态环境变化的能力。例如,在水下环境中,水流的变动、海洋生物的活动以及外部干扰等因素都可能影响路径的可行性。因此,本文提出的RL-FDTRRT算法在设计时充分考虑了这些动态因素,并通过强化学习策略对路径生成过程进行动态调整,以确保在复杂环境中仍能生成高质量的路径。
为了验证算法的性能,本文进行了大量的仿真实验。实验结果表明,RL-FDTRRT算法在路径可行性方面表现优异,能够有效避开障碍物并生成满足运动约束的路径。同时,该算法在计算效率方面也具有明显优势,能够在较短时间内完成路径规划任务。此外,实验还显示,该算法在处理高维空间和复杂障碍物分布时,能够保持较高的鲁棒性,确保路径规划的稳定性。这些实验结果充分证明了RL-FDTRRT算法在实际应用中的可行性与有效性。
在技术实现方面,本文提出的算法结合了强化学习与传统的RRT方法,形成了一个高效的路径规划框架。通过将强化学习用于采样方向的优化,算法能够在复杂的水下环境中快速找到可行路径,而无需对环境进行详细的建模。同时,基于运动可达性的父节点搜索策略确保了生成路径的可行性,使得UUVs能够在实际运行中顺利执行任务。此外,偏置因子的引入使得算法在采样过程中更加灵活,能够在不同环境中保持良好的适应性。
综上所述,本文提出的RL-FDTRRT算法为UUVs的路径规划提供了一种新的解决方案。该算法通过引入强化学习策略,有效提升了路径规划的效率和质量,使其能够适应复杂多变的水下环境。同时,算法在设计上充分考虑了运动动力学特性,确保生成的路径不仅可行,还能满足实际运行需求。实验结果表明,该算法在路径可行性、计算效率和鲁棒性方面均优于现有的基于RRT的算法,为未来的水下自主导航系统提供了有力的技术支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号