通过深度强化学习实现多源信息的自适应融合,以辅助无人水面船(USV)的轨迹规划
《Ocean Engineering》:Adaptive fusion of multi-source information for USV trajectory planning via deep reinforcement learning
【字体:
大
中
小
】
时间:2026年01月03日
来源:Ocean Engineering 5.5
编辑推荐:
无人水面艇在动态海洋环境中的轨迹规划研究,提出基于深度强化学习的框架,集成BFS启发式引导和注意力机制的自适应融合模块,构建基于波罗的海实测数据的时变海洋环境模型,实验显示成功率达17.0%提升。
魏云飞|刘东旭|欧家军|郭晓|郑宝金
北京航空航天大学无人系统研究所,中国北京 100191
摘要
轨迹规划是确保无人水面航行安全的关键技术。构建高保真度的海洋环境模型并实现多源信息的智能融合对算法性能具有重要意义。本研究提出了一种基于深度强化学习的方法。首先,我们利用波罗的海的实际海洋数据(包括洋流数据和波浪数据)来构建一个时变海洋环境模型。其次,提出了一种结合启发式引导的有效马尔可夫决策过程框架。这种启发式引导使智能体能够克服基于欧几里得距离的奖励机制中固有的局部最优解,从而在复杂地理环境中提高避障能力。最后,我们提出了一种基于软演员-评论家框架的决策模型,该模型集成了自适应轨迹控制模块。该模块基于注意力机制,能够实现多源信息的自适应融合,并在不同场景下动态调整注意力权重的分布。消融实验的结果证明了该方法的有效性。与基线方法相比,我们的方法成功率提高了17.0%。
引言
无人水面航行器(USVs)在海洋工程中展现了显著的实际价值。作为智能和自主的平台,它们具有高运行安全性、成本效益和灵活性等优点,适用于海洋调查、环境监测和海上救援任务(Mousazadeh等人,2018年)。在常用的实用技术中,轨迹规划是影响USV任务效果的关键能力。然而,USV的操作常常受到动态海洋环境的影响(Ghazali等人,2024年)。具体来说,洋流显著影响车辆的运动动力学,而波浪条件对确定运行安全性起着关键作用(Yan等人,2010年)。因此,一个合理的算法对于确保USV在这种动态环境中的性能至关重要。这不仅影响任务效率,还有助于节能、确保任务安全以及扩展USV的应用场景(Ghazali等人,2024年)。
尽管具有这些能力,USV的轨迹规划仍面临重大挑战。这些车辆对海洋动力学非常敏感,其导航与变化的洋流和波浪模式紧密相关。海洋环境本身也具有不确定性,既有像海岸线这样的静态障碍物,也有其他船只这样的动态障碍物(Er等人,2023年;Mousazadeh等人,2018年;Xing等人,2023b年)。这种复杂性,加上需要在环境干扰下管理能耗,使得简单的路径寻找策略变得不足,需要更适应性的规划方法(Lin等人,2025年;Wang等人,2019年)。
为了解决这些限制,研究人员探索了各种方法,每种方法都有其独特的优点和局限性。这些方法大致可以分为传统优化技术(Bai等人,2023年;Chen等人,2021年;Long等人,2023年;MahmoudZadeh等人,2022年;Xu等人,2024年;Yu等人,2021年;Zhang等人,2025c年)和深度强化学习(DRL)方法(Fan等人,2023年;Qu等人,2025b年;Sun等人,2025年;Sun等人,2023年;Wang等人,2022年;Wang等人,2023年;Xiao等人,2024年;Yang等人,2023年;Yang等人,2024年;Zhai等人,2021年;Zhang等人,2023年;Zhang等人,2025a年;Zhang等人,2025c年;Zhao等人,2020年;Zhong等人,2022年;Zhou等人,2019年;Zhou等人,2025年)。传统算法可以在静态环境中计算出最优路径。然而,在面对动态场景时计算成本较高,且难以结合复杂的车辆动力学(?ztürk等人,2022年)。DRL提供了一个有前景的替代方案,它能够从复杂的传感器数据中学习而无需显式模型。然而,现有的DRL方法存在一些局限性:它们通常依赖欧几里得距离进行路径寻找,导致USV在U形海湾等场景中陷入困境;缺乏实际数据利用使得构建高保真度环境模型变得困难;并且它们无法实现多源信息的智能融合以捕捉车辆状态与环境力之间的相互依赖性或动态调整这些因素的重要性。
本研究旨在通过提出一种既适应性强又稳健的轨迹规划框架来解决这些已识别的问题。我们提出了一个基于DRL的框架,并在其中加入了启发式引导,该框架是在使用哥白尼海洋环境监测服务(CMEMS)提供的波罗的海实际数据构建的海洋环境模型中实现的。该框架包含一个自适应轨迹控制模块(ATCM),能够实现多源信息的自适应融合。我们的目标是提高USV在动态海洋环境中轨迹规划政策的实际适用性和自主决策能力。本工作的主要贡献总结如下:
1.一种用于稳健探索的路径感知引导机制:我们将基于广度优先搜索(BFS)的距离度量标准集成到DRL框架的奖励结构中。这提供了一种全局的、路径感知的启发式方法,与标准的欧几里得距离奖励相比,显著提高了在障碍物丰富的环境中的探索效率和收敛速度。
2.一种用于智能决策的自适应融合模块:我们引入了一个基于Transformer的模块,该模块能够自适应地融合实时水文数据、全局导航线索和USV的状态。这使得智能体能够动态权衡不同输入的影响,以应对变化的条件优化其轨迹。
3.一个针对高保真度环境的经过验证的端到端框架:我们基于CMEMS提供的波罗的海实际数据构建了海洋环境模型,并将BFS引导和ATCM集成到一个完整的端到端DRL框架中。我们通过在高保真度模拟环境中的全面训练和评估,证明了其卓越的性能、适应性和稳健性。
本文的其余部分组织如下:第2节回顾了USV轨迹规划问题的相关研究。第3节介绍了所提出的方法,包括海洋环境模型、USV模型、结合BFS的DRL框架以及ATCM架构。第4节描述了实验设置和结果。最后,第5节总结了本文并讨论了未来的研究方向。表1和表2列出了文章中的缩写和符号,本文的其余部分按以下结构组织。
章节片段
相关工作
本节回顾了USV轨迹规划的发展历程。首先,我们指出了传统算法在动态海洋环境中的局限性。然后,我们分析了基于DRL的方法的进展和持续存在的差距。这一分析最终确定了我们提出的框架所要解决的具体研究问题。
提出的方法
本节详细介绍了所提出的框架。该方法基于三个核心组成部分:(1)使用实际数据生成动态和具有挑战性的场景的多层海洋环境模型;(2)定义强化学习状态和动作空间的USV运动学模型;(3)一种基于Transformer的模块,该模块由BFS衍生的启发式指导。图1展示了该集成系统的架构。
实验与分析
为了评估ATCM的有效性,我们设计了一系列模拟实验。本节首先介绍实验设置,然后通过定性和定量分析进行评估,并通过消融实验验证每个组件的贡献。最后,还对动态障碍物进行了初步测试,并验证了低级控制器的轨迹可行性。
CRediT作者贡献声明
魏云飞:撰写 – 审稿与编辑,撰写 – 原稿,软件,方法论,数据整理。刘东旭:监督,资金获取,概念化。欧家军:撰写 – 审稿与编辑,项目管理,资金获取。郭晓:监督,方法论,概念化。郑宝金:可视化,软件,资源。
利益冲突声明
作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。
致谢
本项工作得到了中国国家重点研发计划(2023YFD1701804)和中央高校基本科研业务费(501JCGG2024129003,501JCGG2024129006)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号