
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于增强PPO-LSTM混合建模的4自由度船舶运动在线预测方法及其在扰动水域的应用
【字体: 大 中 小 】 时间:2025年09月01日 来源:Ocean Engineering 5.5
编辑推荐:
本文提出了一种基于数据驱动的混合建模与在线更新(HMOU)框架,通过整合增强型近端策略优化(E-PPO)算法和轻量级长短期记忆(LSTM)网络,实现了复杂水域环境下4自由度(4-DOF)船舶操纵运动的高精度动态预测。研究通过滑动窗口和在线更新机制构建不确定性模型,显著提升了传统离线模型的适应性和预测准确性,实验表明最优HMOU模型在回转和Z形操纵测试中均方根误差(RMSE)分别降低18.7%和25.2%。
Highlight
本研究创新性地将增强型近端策略优化(E-PPO)与轻量级长短期记忆(LSTM)网络相结合,构建了混合建模与在线更新(HMOU)框架。该框架通过四重优化策略强化了智能体从有限数据中学习船舶动态的能力,并采用滑动窗口机制实时捕获未知动力学特征,为自主船舶(MASS)在复杂海况下的运动预测提供了高适应性解决方案。
Mathematical model of ship maneuvering motion
船舶操纵运动的数学模型主要采用MMG模型(Maneuvering Modeling Group),该模型通过分离船体、螺旋桨和舵的水动力作用,实现了4自由度(4-DOF)运动的精细化建模。相较于Abkowitz模型的泰勒级数展开法,MMG模型能更灵活地处理舵效和螺旋桨-船体相互作用等非线性特征。
E-PPO algorithm
标准近端策略优化(PPO)算法通过四项增强组件升级为E-PPO:1)动态自适应 clipping阈值;2)混合探索-开发策略;3)优先级经验回放;4)多目标奖励函数设计。这些改进使算法在有限训练数据条件下仍能高效学习船舶动态特性,其策略梯度更新的稳定性较传统DRL(Deep Reinforcement Learning)方法提升显著。
Hybrid modeling and online update framework
HMOU框架包含两个核心模块:基于E-PPO的离线基准模型负责捕捉船舶基础动力学,而轻量级LSTM构建的在线不确定性模型则通过滑动窗口(窗口宽度≤10s)实时修正环境扰动和模型误差。这种"离线预训练-在线微调"的混合架构,在保证计算效率的同时实现了长达120秒的运动序列预测。
Simulation verification and results
以SR-108集装箱船为案例的仿真表明:在波浪干扰和传感器噪声的扰动水域中,最优HMOU模型在Z形操纵测试中的横摇角预测误差降低25.2%,且计算耗时较传统GPR(Gaussian Process Regression)方法减少68%。消融实验证实,E-PPO的四项增强组件贡献度排序为:多目标奖励(42%)>动态clipping(28%)>混合策略(20%)>优先级回放(10%)。
Conclusions
本研究提出的HMOU框架通过融合深度强化学习与序列建模的优势,突破了传统离线模型在动态环境中的适应性瓶颈。未来工作将拓展至6自由度(6-DOF)运动预测,并探索模型在实船自主避碰系统中的应用潜力。
生物通微信公众号
知名企业招聘