基于深度强化学习的水下滑翔机持续覆盖观测方法研究——海洋动力过程监测新策略

【字体: 时间:2025年06月16日 来源:Ocean Engineering 4.6

编辑推荐:

  针对传统海洋观测方法在时空覆盖率和连续性上的局限,本研究提出基于近端策略优化(PPO)算法的深度强化学习方法,实现水下滑翔机(UG)在洋流干扰下的自主路径优化。通过设计重访周期图和新型奖励函数,该方法在虚拟流场和真实洋流模拟中均展现出稳定的适应性,为海洋动力过程的高分辨率持续观测提供了创新解决方案。

  

海洋占据地球表面的71%,其动态过程如洋流、潮汐和温盐变化深刻影响着全球能量传输与气候系统。然而,传统观测手段如锚定浮标、Argo浮标等受限于移动能力与续航时间,难以实现特定海域的高时空分辨率持续观测。水下滑翔机(UG)虽具备数月续航能力,但在复杂洋流环境中路径规划仍是难题——现有方法或依赖预设路径缺乏适应性,或需预先建模洋流场而难以应对动态变化。

中国的研究团队在《Ocean Engineering》发表的研究中,创新性地将深度强化学习(DRL)引入UG路径规划领域。通过构建混合神经网络(HNN)架构和基于重访周期图的奖励机制,使UG能通过环境交互自主学习洋流特性,最终在虚拟均匀流场、涡旋场及真实洋流数据模拟中,实现比传统割草机路径(lawnmower pattern)高32%的覆盖效率。这项突破为海洋碳循环监测、厄尔尼诺现象预测等研究提供了全新的动态数据采集范式。

关键技术方法包括:1) 建立二维离散化UG运动模型与洋流速度场模型;2) 设计包含覆盖时效性、能耗等要素的复合奖励函数;3) 采用PPO算法训练HNN网络结构;4) 通过重访周期图量化时空覆盖性能;5) 在仿真环境中验证方法对均匀流、涡流等不同流场的适应性。

问题建模
将观测区域Ω离散为L×H网格,将UG持续覆盖问题转化为马尔可夫决策过程(MDP)。通过定义状态空间(含UG位置、洋流矢量、网格覆盖状态)、动作空间(航向角变化)和即时奖励函数,构建强化学习框架。

模型建立
简化UG运动学模型为二维平面模型:
xt+1 = xt + (vUGcosθt + uc)Δt
yt+1 = yt + (vUGsinθt + vc)Δt
其中(uc,vc)为洋流速度分量。建立均匀流场和涡旋场两类测试环境,后者速度场满足Γ/(2πr)衰减规律。

方法论创新
设计三重奖励机制:基础奖励鼓励覆盖新网格,时效奖励缩短重访周期,惩罚项防止进入超限流区。提出覆盖均匀性指数(CUI)和时效一致性指数(TUI)作为评估指标,其中TUI=1-σττ反映各网格重访周期稳定性。

仿真验证
在三种场景测试表明:1) 静态环境中PPO路径较割草机路径覆盖效率提升28%;2) 在1.5m/s涡流场中仍保持0.82的CUI值;3) 真实洋流数据测试显示TUI达0.91,证明方法对非结构化流场的适应性。

结论与展望
该研究首次实现UG在无先验洋流模型下的自主持续覆盖,PPO算法展现出优于DDQN、DDPG等方法的训练稳定性。重访周期图机制有效解决了传统信息年龄(AoI)指标无法兼顾时空覆盖质量的缺陷。未来研究需融合UG定位误差补偿模型,并扩展至三维空间观测场景。这项技术为构建智能海洋观测网络奠定了基础,对研究海洋亚中尺度过程(1-10km)的能量串级机制具有重要价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号