基于门控Transformer近端策略优化的多船舶自主避碰决策策略研究

【字体: 时间:2025年06月03日 来源:Engineering Applications of Artificial Intelligence 7.5

编辑推荐:

  为解决海上状态空间预测不准和多船偏离《国际海上避碰规则》(COLREGs)的决策难题,研究人员提出了一种基于门控Transformer的近端策略优化(GTr-PPO)算法。该算法通过分离连续/离散状态输入、创新门控机制和高精度观测模型,使训练成功率提升11.19%,平均奖励收敛速度加快35.29%,在八船复杂场景中泛化成功率高达95%,为船舶智能辅助导航提供了新方案。

  

在智能航运快速发展的背景下,海上自主水面船舶(MASS)的避碰决策面临三大挑战:风浪干扰导致的状态预测失真、多船会遇时COLREGs规则执行的不确定性,以及传感器观测不稳定引发的计算负担。传统方法如A-star、人工势场(APF)等存在泛化性差、动态响应慢等缺陷,而深度强化学习(DRL)算法虽具潜力,但DDPG训练不稳定、PPO学习效率低等问题制约其应用。

大连海事大学的研究团队在《Engineering Applications of Artificial Intelligence》发表研究,创新性地将门控机制与Transformer架构结合,提出GTr-PPO算法。关键技术包括:(1)采用双通道输入处理连续/离散状态空间;(2)设计新型门控单元替代传统残差连接;(3)构建融合COLREGs规则的高精度奖励函数;(4)基于船舶三自由度运动模型设计动作空间。实验在ROS平台完成,使用Nvidia RTX3090 GPU进行加速。

Ship motion model
通过简化船舶水平面三自由度运动模型,保留横荡、纵荡和艏摇运动特性,确保深度神经网络(DNN)输出符合船舶动力学特征。

Proposed approach
创新性地用门控机制重构Transformer架构:①离散状态(如COLREGs规则)和连续状态(如位置信息)分通道输入;②多头自注意力(Multi-head Self-attention)输出经门控单元筛选;③调整层归一化顺序提升稳定性。相比传统Transformer,计算效率提升35%。

Design of simulation
在包含静态障碍和8艘动态船舶的复杂场景中测试:①消融实验验证门控机制使训练成功率提升11.19%;②对比实验显示平均奖励收敛速度快于MAPPO算法35.29%;③泛化测试中95%的避碰决策符合COLREGs规则。

Conclusion
该研究通过算法架构创新解决了DRL在船舶避碰中的三大痛点:①门控机制增强了对动态环境的适应性;②双通道输入提升了状态空间表征能力;③改进奖励函数确保符合海事规范。实验证明该方法在训练效率、决策精度和泛化能力上均显著优于现有技术,为智能航运系统提供了可靠解决方案。值得注意的是,研究者特别指出该方法在紧急避碰场景中能实现200ms内的实时决策,且对传感器噪声具有鲁棒性。未来工作将探索该算法在异构船舶编队中的扩展应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号