考虑不确定性的深度分布式强化学习,用于无人水面舰艇在复杂环境中的自主导航
《Ocean Engineering》:Uncertainty-aware deep distributed reinforcement learning for autonomous navigation of unmanned surface vehicles in complex environments
【字体:
大
中
小
】
时间:2025年10月01日
来源:Ocean Engineering 5.5
编辑推荐:
自主水面无人航行器(USV)路径规划面临海洋动态环境与稀疏奖励的挑战,本研究提出隐式分位数网络与不确定性驱动风险调整框架(IQN-UDRAF)。该方法通过条件风险价值量化不确定性,动态调整风险偏好,结合混合经验回放优化探索效率,实现碰撞避免与全局最优的平衡。实验表明其在复杂环境中成功率达81%,路径长度缩短32.44%,能耗降低36.13%。
自主导航是无人水面航行器(Unmanned Surface Vehicles, USVs)执行海洋任务的核心能力之一。然而,海洋环境的复杂性和不确定性,如洋流、障碍物以及动态变化的自然条件,给传统路径规划方法带来了极大的挑战。这些因素不仅增加了任务执行的随机性,还导致了稀疏奖励的问题,从而提升了认知不确定性,限制了传统强化学习(Reinforcement Learning, RL)策略的可靠性。为了解决这些问题,本文提出了一种名为“隐式量化网络与不确定性驱动风险调整框架”(Implicit Quantization Network with Uncertainty Driven Risk Adjustment Framework, IQN-UDRAF)的深度分布强化学习(Deep Distributional Reinforcement Learning, DRL)方法,该方法通过动态风险适应机制克服了传统固定风险模型的局限性,为USV的自主导航提供了更高效、更智能的解决方案。
USV在海洋资源开发、海上巡航、海洋生态保护、水下资源监管、海洋资源勘探以及灾害预测等任务中发挥着重要作用。随着海洋活动的多样化和复杂化,USV的路径规划不仅需要考虑如何避开动态障碍物,还必须在不断变化的环境条件下保持高效和安全。路径规划的目标是在受限的海洋操作环境中,从起点到目标设计一条无碰撞且最优的航行轨迹,同时兼顾最小化航行时间与确保任务安全。然而,由于海洋环境的不确定性和复杂性,传统路径规划方法在适应性、鲁棒性和计算效率方面面临诸多挑战。尤其是在面对未知或动态变化的环境时,传统方法往往难以同时满足全局最优性、实时避障和环境适应性的多重目标,这使得高效、智能的路径规划算法的开发成为当前研究中的一个紧迫问题。
路径规划算法通常分为全局路径优化和局部障碍物避让两类。全局方法,如基于图的搜索算法(A*、Dijkstra)和采样方法(快速探索随机树,RRT),依赖于预先获取的环境信息来计算最优路径。例如,Singh等人在2018年提出了一种改进的A*算法,结合了安全距离约束;而Han等人在2021年则将USV的动态约束与A*算法相结合,以提高全局路径的优化效果。这些方法在静态环境中表现良好,但在动态环境中则由于依赖于预知的地图信息,表现出较差的适应性和较高的计算成本。相比之下,局部障碍物避让方法,如动态窗口法(DWA)和人工势场法(APF),利用实时传感器数据进行即时轨迹调整。虽然这些方法在动态障碍物避让方面效果显著,但它们容易陷入局部最优解,无法保证全局路径的合理性。近年来,一些混合方法,如将RRT与DWA相结合的方案,试图弥补这些不足,但在高度不确定的海洋环境中仍然面临计算效率和鲁棒性方面的挑战。
随着强化学习(Reinforcement Learning, RL)在路径规划中的广泛应用,其作为基于环境交互的智能决策方法展现出巨大的潜力。然而,传统的强化学习方法在面对高维状态空间和复杂动态环境时,常常遭遇维度爆炸的问题,导致收敛速度缓慢、效率降低,从而限制了算法的实际应用效果。得益于深度学习(Deep Learning, DL)在人工智能领域的快速发展,其强大的特征提取和高维数据处理能力为强化学习提供了新的解决方案。深度强化学习(Deep Reinforcement Learning, DRL)通过将深度学习与强化学习相结合,已经在诸如路径规划等复杂问题中取得了显著进展。
传统的DRL方法在建模环境不确定性方面存在明显局限,难以准确捕捉环境的动态趋势和复杂特性,尤其是在面对剧烈波动和复杂障碍物分布的情况下,算法的稳定性和适应性较差。为了解决这些问题,Bellemare等人在2017年提出了一种分布强化学习算法,该算法通过直接建模回报的分布而非期望值,从而更全面地捕捉环境中的不确定性,显著提高了算法的鲁棒性、稳定性和适应性。与传统DRL方法相比,分布强化学习能够通过更精确的回报分布建模,有效避免局部最优解,并在动态变化和复杂障碍物分布的环境中展现出更强的泛化能力。IQN作为一种先进的DRL算法,允许智能体预测期望回报并处理回报的分布,这对于高风险和不确定的任务尤为重要。特别是在动态变化的海洋环境中,模型常常面临探索与利用之间的权衡难题。
受到这些挑战的启发,本文提出了一种增强型的IQN-UDRAF算法,用于USV的路径规划。该算法将IQN与基于反馈的自适应风险调节框架相结合,并引入了增强型优先经验回放(Enhanced Prioritized Experience Replay, EPER)。通过使用条件风险价值(Conditional Value-at-Risk, CVaR)和右尾方差(Right Truncated Variance, RTV)动态调整模型的风险倾向,IQN-UDRAF能够在不确定的海洋环境中实现稳健的决策。此外,通过EPER优先选择具有显著时间差(Temporal Difference, TD)误差的经验样本,该算法加速了学习过程并增强了策略收敛的稳定性。与现有的深度强化学习方法(如DQN、PPO)以及标准IQN相比,IQN-UDRAF在效率、准确性和鲁棒性方面均表现出优势。
IQN-UDRAF算法在USV自主导航方面的优化主要体现在以下几个方面。首先,与Du等人在2024年提出的分布式学习方法不同,IQN-UDRAF结合了IQN的分布式回报计算机制与CVaR机制,通过基于反馈的风险调节,动态调整路径规划策略,从而实现高效且稳健的决策。其次,通过引入基于经验的奖励模型,该算法能够有效应对海洋环境中反馈信息稀疏的问题,超越了Lin等人在2023年的相关方法,从而提升了路径长度、安全性和轨迹平滑度,提高了整体导航效率。最后,该算法采用了一种混合经验回放机制,将基于TD误差的采样与均匀随机采样相结合,为IQN的训练提供了更多有价值的经验样本,从而超越了标准优先经验回放方法,提升了样本利用率,加快了策略收敛,并增强了训练效率。
在实验和分析部分,本文通过多种实验评估了所提出算法在海洋导航任务中的有效性,以及其自适应风险调节机制的表现。实验旨在验证IQN-UDRAF在不同复杂度和动态设置下的鲁棒性和效率,并与基线方法进行比较。实验结果表明,IQN-UDRAF在复杂海洋环境中显著优于传统强化学习和非分布算法,成功率达到最高81%,平均导航时间减少了32.44%,能量消耗降低了36.13%。这些改进使得IQN-UDRAF在实现USV自主导航的可靠性和高效性方面表现出色,从而显著提升了海洋任务的成功率。
综上所述,本文提出的IQN-UDRAF算法为USV的自主导航提供了一种全新的解决方案。该算法通过引入自适应风险调节机制和混合经验回放策略,有效应对了海洋环境中的不确定性、动态障碍物和稀疏奖励问题。同时,通过优化样本利用和策略收敛,该算法在路径规划任务中展现出更高的效率和准确性。这些创新不仅提高了USV在复杂海洋环境中的适应能力和鲁棒性,还为分布式强化学习在海洋任务中的应用奠定了坚实的基础。IQN-UDRAF算法的提出,标志着在无人水面航行器自主导航领域迈出了一大步,为未来的海洋任务执行提供了更加智能、高效和可靠的技术支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号