综述:自主水下航行器运动系统中的强化学习方法
《Applied Surface Science》:Reinforcement learning approaches in the motion systems of autonomous underwater vehicles
【字体:
大
中
小
】
时间:2025年07月17日
来源:Applied Surface Science 6.3
编辑推荐:
自主水下机器人(AUV)运动系统设计面临复杂非线性模型和动态环境挑战。本文系统综述了强化学习(RL)在AUV运动控制、路径规划及多机协作三大任务空间的应用进展:1)运动控制采用辅助控制(如PID参数动态优化)与直接控制(如DDPG、PPO)结合策略,提升鲁棒性与适应性;2)路径规划分为路径导向(A3C、DDQN)、状态导向(LSTM-A2C、SAC)及端到端(PPO、TD3)三类,通过传感器融合与奖励函数优化增强环境感知能力;3)多AUV协作通过分布式通信(如图神经网络SAC)、任务分配(Q-learning、DQN)与协同控制(动态博弈、HJI方程近似)实现编队优化与高效任务执行。研究指出当前主要挑战包括虚实环境模型差异、水下通信延迟、数据采样效率低及策略泛化能力不足。未来需结合物理信息神经网络(PINN)、边缘计算分布式部署及多模态传感器融合提升工程适用性。
自主水下航行器(AUVs)在海洋资源探索中扮演着日益重要的角色。随着陆地资源的逐渐枯竭,海洋已成为人类可持续发展和生存的重要资源来源。为了有效探索和利用这些资源,AUVs被设计用于在复杂的水下环境中执行多样化和高难度的任务。然而,水下环境的复杂扰动和高度耦合的模型给AUVs运动系统的开发带来了重大挑战。因此,能够不依赖复杂模型而发展出稳健控制策略的强化学习(RL)方法,成为AUVs研究的热点。尽管如此,基于RL的运动系统任务空间划分仍不清晰,且该领域缺乏系统的设计方法或总结。
本文详细回顾了基于强化学习方法在AUVs运动系统中的应用。具体而言,AUVs的运动系统任务空间被划分为三类:运动控制、运动规划和多AUV运动。对于每种任务空间,本文介绍了特定的运动架构,并回顾了最新的进展。在运动控制方面,引入了辅助运动控制和直接运动控制方法。在运动规划方面,讨论了路径导向、状态导向和端到端方法。在多AUV运动方面,总结了编队运动和运动任务协调。最后,本文指出了强化学习方法在AUVs运动系统中的应用挑战,并展望了该领域的潜在突破。通过提供基于强化学习的运动系统设计架构和网络模型的详细综述,本文为实践者和初学者提供了有价值的解决方案和见解,进一步推动了强化学习方法在解决AUVs复杂运动系统设计挑战中的应用。
AUVs的运动控制是实现各种水下任务的基础,而自主运动规划则是应对水下复杂任务的关键。运动控制确保AUVs在静态或动态条件下保持稳定,其核心在于基本运动的稳定性和鲁棒性。具体来说,运动控制可以分为AUV稳定、路径点跟踪和路径或轨迹跟踪。在不同的控制任务中,控制输入通过计算当前状态与目标状态之间的误差来生成,这为强化学习中设计奖励函数提供了关键参考。因此,在运动控制中,通常仅使用内部传感器的值作为输入,直接映射到执行器的控制命令。
相比之下,运动规划更关注AUVs的行为结果,涉及运动路径和行为的预设计与实时调整。运动规划的核心目标是确保AUVs在水下任务执行中的安全、高效和适应性。经典运动规划任务是障碍物规避,因此与运动控制的关键区别在于,运动规划需要同步使用内部和外部传感器来获取环境信息,同时要求更高维度的状态信息和更复杂的网络结构。外部传感器用于感知外部环境信息,如障碍物,而内部传感器则用于获取当前姿态信息。
多AUV运动不同于使用多个独立AUV完成水下任务,而是关注不同AUV之间的任务分配与协作。类似运动规划,它涉及AUVs行为的预设计,同时在规划过程中考虑不同AUV之间的空间关系。多AUV运动被视为高层次的决策任务,因此可以借鉴其他多智能体强化学习设计架构。然而,AUVs独特的运动特性和水下通信的复杂性要求额外的考虑。
在运动控制方面,强化学习方法被分为辅助运动控制和直接运动控制。辅助运动控制通过强化学习动态优化传统控制算法,从而提高其在水下环境中的适应性。这种方法通常通过两种途径实现:辅助控制器参数调整和控制变量修正。在实际应用中,辅助运动控制方法可以优化传统控制方法,提高AUVs在复杂水下环境中的适应性和鲁棒性。然而,这些方法在从仿真到实际部署时仍面临挑战,例如实验成本和复杂度。
直接运动控制则是基于强化学习直接建模控制策略,优化AUVs的执行器输入。这种方法不依赖于AUVs的模型参数,具有更强的适应性。然而,直接控制执行器可能导致运动的不连续和不平滑,同时低数据采样效率使得训练收敛变得困难。为了解决这些问题,研究者提出了多种改进措施,如使用扰动观测器进行扰动估计,提高采样效率等。
在运动规划方面,基于强化学习的方法可以分为路径导向、状态导向和端到端方法。路径导向方法专注于生成最优路径,并通过路径跟踪控制模块执行。这种方法通常使用网格地图和深度学习技术,以提高路径生成的效率和鲁棒性。状态导向方法则直接输出AUVs的姿态和速度,并通过状态跟踪控制实现。这种方法的优势在于其快速响应能力,能够帮助AUVs在复杂和动态环境中灵活调整姿态和速度。然而,状态导向方法在强化学习中可能输出不平滑的姿态和速度,影响导航的安全性和可靠性。
端到端方法则是将运动规划和控制直接映射,跳过低层次控制模块,直接输出执行器的控制命令。这种方法通过强化学习实现,使得AUVs能够快速响应扰动,提高实时性能。然而,由于水下环境的复杂性和非线性,直接控制执行器可能导致运动的不稳定性。因此,研究者提出了多种改进方法,如使用长短期记忆(LSTM)网络预测动作序列,提高动作的连续性和稳定性。
多AUV运动系统涉及多个AUV协作完成特定的水下任务,通过数据交换和通信实现。这种系统能够扩展感知能力,提高运动稳定性,并增强任务执行效率。例如,编队运动方法通过协调多个AUV的位置和姿态,确保它们保持预定的编队结构。而运动任务协调则更关注任务分配,使得AUVs能够独立运动,共同完成目标。在实际应用中,多AUV运动系统需要考虑通信延迟、环境干扰等问题,同时提高系统的鲁棒性和实时决策能力。
尽管强化学习在AUVs运动系统中展现出巨大的潜力,但实际应用中仍面临诸多挑战。首先,高实验成本限制了强化学习在实际环境中的广泛应用。其次,水下环境的传感器采样和通信效率有限,影响了强化学习的状态表示。此外,AUVs的计算能力和能源有限,使得强化学习算法在实际应用中面临计算资源和时间的挑战。最后,强化学习方法在实际环境中的泛化能力不足,导致其在新环境中的性能下降。
未来,研究可以集中在提高AUVs的动态适应能力和控制能力。通过强化学习与深度学习的结合,AUVs能够更有效地适应复杂的水下环境。此外,任务决策优化和多模态学习也是重要的发展方向。通过优化AUVs的导航、障碍物规避和路径规划,可以减少能量消耗,提高任务执行效率。同时,多AUV协作学习和分布式部署也有助于提高数据采样效率和算法的鲁棒性。随着边缘计算的发展,强化学习可以更有效地集成到AUVs系统中,提高处理速度和能源效率。这些改进将有助于推动强化学习在AUVs运动系统中的应用,促进人类对海洋资源的探索和利用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号