基于Transformer-TD3与DWA的无人艇端到端自主避碰控制研究

《Ocean Engineering》:End-to-end autonomous collision avoidance control for unmanned surface vessels based on Transformer-TD3 and DWA

【字体: 时间:2025年10月26日 来源:Ocean Engineering 5.5

编辑推荐:

  本文针对复杂海洋环境下无人水面艇(USV)的动态障碍物避碰控制难题,提出了一种融合Transformer网络、双延迟深度确定性策略梯度(TD3)算法与动态窗口法(DWA)的端到端控制框架TFTD3-DWA。研究团队通过构建多维网格地图与空间注意力掩码,创新性地开发了具有碰撞感知能力的自注意力机制,并结合考虑环境扰动的MMG船舶运动模型,实现了USV在符合《国际海上避碰规则》(COLREGs)前提下的自主避碰导航。仿真结果表明,该算法在多种船舶会遇场景下均能实现100%的避碰成功率,且计算效率较传统方法提升95%以上,为智能船舶自主导航技术提供了新思路。

  
随着海洋运输任务中船舶密度的不断增加和劳动力成本的持续上升,船舶智能化与无人化已成为航运业发展的关键趋势。作为能够自主航行的水面平台,无人水面艇(Unmanned Surface Vessel, USV)在军事和民用领域展现出广阔的应用前景。要实现真正的自主航行,USV不仅需要规划连接出发港到目的港航路点的全局航线,更需要在局部水域航行时具备实时规避动态障碍物(如其他船舶)的能力,同时严格遵守《国际海上避碰规则》(COLREGs)。
然而,现有的USV避碰控制研究面临诸多挑战。传统方法如人工势场法、智能进化算法等往往难以准确处理复杂航行环境中的动态障碍物避碰问题。而基于深度强化学习的方法虽然显示出潜力,但存在探索效率低、训练模型泛化能力差等问题。此外,许多研究使用的USV运动模型过于简化,难以准确反映船-水相互作用产生的复杂非线性运动轨迹,且未能充分考虑执行器(如舵和螺旋桨)的饱和约束以及风、流等环境扰动的实际影响。
针对这些难题,武汉理工大学的研究团队在《Ocean Engineering》上发表了一项创新性研究,提出了一种名为TFTD3-DWA的端到端自主避碰控制框架。该框架巧妙融合了Transformer网络、双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient, TD3)算法和动态窗口法(Dynamic Window Approach, DWA),为USV在开放水域环境扰动下的动态障碍物避碰提供了全新解决方案。
研究团队采用了多项关键技术方法:首先构建了包含位置、速度、航向等多维信息的网格地图,并通过稀疏化处理提取有效特征;创新性地引入空间注意力掩码技术,将标准的多头自注意力机制改进为专用于USV避碰任务的多头碰撞感知自注意力;建立了基于Transformer和TD3的初步避碰控制模型TFTD3,其奖励函数综合考虑了最近会遇距离(DCPA)、最近会遇时间(TCPA)和COLREGs符合度;开发了基于DWA的双候选控制命令优化模型DWA-DC;采用考虑环境扰动的MMG模型作为USV操纵模型,确保避碰轨迹符合船舶动力学约束。
2. USV端到端避碰控制框架
研究团队首先建立了完整的USV端到端避碰控制框架TFTD3-DWA。该框架通过五个核心步骤实现避碰决策:构建多维网格地图、稀疏化处理、生成初步避碰控制命令、基于DWA优化控制命令、USV执行命令并导航。框架中采用的MMG模型充分考虑了舵、螺旋桨的水动力特性以及风、流等环境扰动,能够准确预测USV在执行控制命令后的航行轨迹。
3. 基于Transformer和TD3的初步避碰控制模型
研究团队创新性地将Transformer架构与TD3算法相结合,构建了TFTD3模型。该模型通过改进的自注意力机制,使USV能够重点关注满足避碰条件的动态障碍物,显著提升了避碰决策的针对性。奖励函数的设计综合考虑了导航安全性、COLREGs符合度、碰撞风险等多方面因素,有效引导模型训练方向。
4. 基于DWA的避碰控制优化
为解决TFTD3模型输出命令可能存在的稳定性问题,研究团队开发了DWA-DC优化模型。该模型仅生成两组候选控制命令,在保证决策可靠性的同时大幅降低了计算复杂度。通过轨迹预测和奖励值评估,DWA-DC能够选择最优控制命令,提升避碰行为的稳定性。
5. 仿真实验与分析
通过26个多船会遇场景的测试验证,TFTD3-DWA展现出卓越性能。在无环境扰动情况下,避碰成功率和导航成功率均达到100%,显著优于对比算法RCAA(76.9%和53.8%)和Dueling TFDQN(100%和0%)。在有三艘动态障碍物的复杂场景中,TFTD3-DWA相比RCAA将总航行距离减少36.22%,航行时间减少51.76%,单步计算时间降低95%以上。即使在环境扰动随时间变化的四船会遇场景中,该框架仍能保持稳定性能,确保USV安全避碰并抵达目标点。
这项研究的重要意义在于首次将Transformer的注意力机制与TD3强化学习算法深度融合,专门针对USV避碰任务特性进行优化,同时通过DWA二次优化保证决策可靠性。TFTD3-DWA框架不仅解决了传统方法在复杂环境下决策效果不佳的问题,还克服了纯强化学习方法稳定性差的缺陷,为智能船舶自主导航提供了切实可行的技术路线。未来,研究团队计划进一步扩展该框架的能力,包括结合LSTM预测动态障碍物轨迹、使用扩张状态观测器处理模型不确定性,以及纳入波浪影响等更复杂的海况条件,推动USV自主避碰技术向更高水平发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号