基于强化学习的船舶航程规划优化方法——应用机器学习靠泊时间预测作为时间约束

《Journal of Marine Science and Engineering》:Development of a Reinforcement Learning-Based Ship Voyage Planning Optimization Method Applying Machine Learning-Based Berth Dwell-Time Prediction as a Time Constraint

【字体: 时间:2025年12月26日 来源:Journal of Marine Science and Engineering 2.8

编辑推荐:

  本文提出了一种集成靠泊时间预测(Gradient Boosting)、燃油消耗预测(Transformer)和深度Q网络(DQN)路由优化的数据驱动框架,实现了在满足到港时间(RTA)约束下的船舶节能(CO2减排26%-69%)与准时制(JIT)到达(偏差趋近于零)的统一优化,为智能自主航行提供了创新解决方案。

  
引言背景
全球海运承担了超过80%的贸易运输量,同时贡献了约2.9%的全球CO2排放。为应对此问题,国际海事组织(IMO)通过了《2023年IMO温室气体战略》,目标是在2050年左右实现净零排放,并设定了2030年和2040年的中期减排目标。在此背景下,在变化的海洋环境条件下进行节能船舶路由变得日益重要。研究表明,基于人工智能的路由可使单船年燃油消耗降低约3-5%,而准时制(JIT)到达据报道可使每航次节省约14%的燃料。然而,大多数现有的路由研究仍然忽略了港口侧的不确定性,特别是由港口容量和排队过程驱动的靠泊停留时间(berth dwell time)的可变性,这导致了提前到达等待、额外的燃料消耗和计划可靠性降低。
研究空白
尽管在天气-海流路由、燃油消耗建模和港口运营分析方面取得了实质性进展,但这些研究流在很大程度上是孤立发展的。因此,现有方法缺乏一个将航程规划与港口运营准备情况对齐,同时明确优化燃油消耗的集成框架。具体研究空白包括:大多数路由研究未纳入不确定的港口侧因素(如靠泊可用性和停留时间的随机性)作为路由规划的时间约束;港口性能研究开发的靠泊时间预测模型未与实时航程规划集成;高精度的燃油消耗预测模型(如基于Transformer的模型)很少被纳入强化学习(RL)路由优化的奖励结构中;现有的基于RL的路由模型(如DQN)通常很少包含RTA或JIT到达要求等对时间表敏感的约束。
研究方法与框架
本研究提出的航程规划优化程序包括三个阶段,旨在综合反映港口运营的不确定性和海洋环境的变化:靠泊停留时间预测模块、燃油消耗预测模块和基于强化学习的最优路由生成模块。
靠泊停留时间预测模块使用港口集装箱吞吐量、风速和气象变量等输入,构建了一个基于梯度提升回归器(Gradient Boosting Regressor)的预测模型。训练数据集被限制在与集装箱船典型停留时间分布(24-48小时)和政策上限(72小时)一致的区间内,从而使港口运营的不确定性能够反映在RTA的估计中。该模型在测试集上达到了R2= 0.836的验证精度。
燃油消耗预测模块以时间序列格式整合导航和海洋环境数据,并采用基于Transformer编码器的回归架构。通过输入投影层和位置编码嵌入时间信息,结合多头自注意力机制和非线性前馈层,使模型能够学习支配燃油消耗的时序和多变量相互作用。该模型在分段水平上实现了约0.99的R2预测性能。模型超参数通过Optuna框架进行自动优化,最终确定了模型维度、注意力头数等最佳配置。
最优路由生成模块使用船舶位置、剩余距离、剩余时间和海洋环境条件来定义状态,并应用由方向-速度组合构成的动作空间来训练基于深度Q网络(DQN)的路由策略。奖励函数由燃油成本项、预计到达时间(ETA)与要求到达时间(RTA)的时间惩罚项以及与浅水区和危险区域规避相关的安全惩罚项组成。奖励权重(α, β, γ)经过调试以平衡各项目标。利用经验回放和目标网络,学习过程产生了一条同时提高燃油效率和计划遵守度的最优路由。DQN代理采用具有四个隐藏层的全连接多层感知机架构。
最后,学习到的路由经过后处理速度调整程序,细化分段航行时间,使到达时间误差(Δt)收敛到允许范围内,从而实现JIT到达。此外,使用Douglas-Peucker算法对基于网格的路由进行路径简化,以减少过多的锯齿状转向。
案例研究结果
在三个集装箱船航线的案例研究中,将提出的优化路由与作为操作基准路线的历史AIS轨迹进行了比较。
案例1(光阳港至釜山港):优化后的轨迹导致燃料消耗约为13.37吨,CO2排放量为41.65吨,而基于AIS的历史路线需要43.09吨燃料和134.26吨CO2排放。这表示燃料使用和排放量大幅减少了约68.97%。初始ETA与目标RTA存在约1.92小时的偏差,经过协调后,最终ETA-RTA偏差减少到仅约-0.001小时(约3.6秒),有效实现了精确的JIT到达。
案例2(符拉迪沃斯托克港至釜山港):优化路线的燃料消耗约为97.43吨,而基于AIS的路线为131.32吨。CO2排放量同样从408.92吨(AIS)减少到303.40吨(优化路线)。这表示燃料使用和排放量减少了约25.81%。初始ETA比目标RTA早约2.49小时,协调后将剩余ETA-RTA偏差减少到约5分钟。
案例3(宁波港至釜山港):AIS轨迹消耗了89.05吨燃料并排放了277.29吨CO2,而优化路线产生了77.69吨燃料消耗和241.91吨CO2排放。这相当于减少了11.36吨燃料和36.62吨CO2,或约12.76%。初始ETA比目标RTA早约3.62小时,协调后最终ETA-RTA偏差约为20.4分钟,落在接近JIT到达的操作可接受限度内。
across the three cases, the proposed method achieved an average fuel and CO2reduction of approximately 35.85% (ranging from 12.76% to 68.97%). After coordination/post-processing, the final ETA–RTA deviations were about 20.4 min, 5 min, and near-zero (average ~8–9 min). The optimized paths consistently avoided shallow-water risks and unfavorable wind–wave regions.
结论与展望
本研究证明,将港口侧不确定性和高精度燃料预测相结合,能显著增强数据驱动的航程优化。靠泊时间预测模型提供了可靠的RTA估计,基于Transformer的燃料模型实现了高分辨率的燃料消耗预测,使得路由优化的奖励计算更加真实。基于DQN的路由模型成功利用这些组件,在动态海洋条件下生成了安全、节能且时间对齐的路线。
该框架提供了一个统一且可扩展的方法论,将港口运营、环境预测和基于强化学习的路由规划联系起来。尽管性能强劲,但仍存在一些局限性。该框架使用单一船舶类型的数据进行评估,需要在不同的船舶等级和海洋区域进行进一步验证。此外,将燃料预测和路由模型耦合到一个完全端到端的结构中可能会进一步减少累积误差。未来的工作还可以纳入负载依赖的特定燃料消耗(SFOC)模型和概率性环境预报,以增强真实性和鲁棒性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号