基于深度强化学习的AUV地磁感知导航方法研究:动态建图与路径优化的突破

《IEEE Journal of Oceanic Engineering》:Research on Geomagnetic Perceiving Navigation Method Based on Deep Reinforcement Learning

【字体: 时间:2025年11月25日 来源:IEEE Journal of Oceanic Engineering 5.3

编辑推荐:

  针对未知环境下自主水下航行器(AUV)无先验地图导航难题,西安邮电大学研究团队提出一种基于深度Q网络(DQN)的地磁感知导航方法。该方法通过构建融合地磁数据的深度强化学习模型,结合启发式动作选择策略实现探索-利用平衡,并利用局部地磁数据动态构建全局地磁图。仿真结果表明,该方法能显著缩短路径长度、提升探索效率并提高地磁图精度,为复杂水下环境下的自主导航提供了新思路。

  
浩瀚海洋蕴藏着无尽的资源与奥秘,自主水下航行器(AUV)作为海洋探索的重要工具,在深海勘探、资源调查等领域发挥着关键作用。然而,深海环境的特殊性使得AUV导航面临巨大挑战——传统导航方法如惯性导航存在累积误差,声学导航受限于设备布设成本,而卫星导航在水下几乎失效。更棘手的是,在完全未知的环境中,缺乏先验地图信息使得路径规划变得尤为困难。
地球磁场作为一种稳定的物理现象,其近地空间分布具有复杂的多样性,这为水下导航提供了天然参考系。自然界中,海龟和信鸽等生物正是利用地磁导航能力完成长途迁徙,这种仿生灵感促使研究人员探索地磁导航在AUV中的应用。但传统地磁导航方法往往依赖预存的地磁图或参数化模型,在动态未知环境中适应性有限。特别是海底地磁异常和噪声干扰会导致奖励信号稀疏,容易使策略陷入局部最优。
为解决这些难题,西安邮电大学李红团队在《IEEE Journal of Oceanic Engineering》发表最新研究,提出了一种基于深度Q网络(DQN)的地磁感知导航方法。该方法创新性地将深度强化学习与地磁导航相结合,通过动态构建地磁图和优化动作选择策略,实现了AUV在未知环境下的高效导航。
研究团队采用了几项关键技术:首先构建了包含位置坐标、目标点和地磁向量(Bx, By)的多维状态空间,将动作空间离散化为360个转向角度;其次设计了融合距离奖励、地磁匹配奖励和目标达成奖励的复合奖励函数,其中地磁奖励通过比较观测值与预期地磁场的欧氏距离来计算;第三引入了启发式ε-greedy策略,根据与目标距离动态调整探索概率,远距离时保持高探索性,接近目标时侧重利用已学知识;最后结合国际地磁参考场(IGRF)模型和深度学习回归模型,利用AUV采集的局部地磁数据动态预测并更新全局地磁图。
状态空间与动作空间设计
研究将马尔可夫决策过程(MDP)定义为四元组(S,A,P,R),状态向量包含AUV当前位置(xt, yt)、目标位置(Xg, Yg)、地磁分量(Bx, By)和欧氏距离dt。动作空间包含360个离散转向角度,每个动作对应角增量决定运动方向。这种设计既简化了动作选择过程,又为DRL算法提供了清晰的动作空间。
奖励函数设计
奖励函数包含四个组成部分:基于距离变化的奖励Rdistance=α·(doriginal-dnew),鼓励AUV向目标靠近;地磁奖励Rgeomagnetic=β·(1-‖Mobserved-Mexpected2),促进观测地磁向量与预期场对齐;目标达成奖励Rgoal和步进惩罚Rstep。这种复合奖励机制有效平衡了路径效率与地磁特征利用。
DQN模型构建
研究采用多层全连接神经网络结构,隐藏层使用ReLU激活函数引入非线性,输出层使用线性激活函数预测各动作Q值。通过最小化时序差分(TD)误差损失函数L(θ)=E[(r+γ·maxa′Q(s′,a′;θ′)-Q(s,a;θ))2],使模型能够从高维状态空间中学习复杂策略。
地磁图动态构建
通过以AUV当前位置为中心定义圆形采样区域,利用IGRF模型计算采样点地磁值,结合深度学习模型预测未知区域地磁值。地图更新采用混合方法:Mexpected(x,y)=α·M?DL(x,y)+(1-α)·MIGRF(x,y),既保留全球趋势又捕捉局部异常。通过最小化均方根误差(RMSE)损失函数持续优化预测模型。
仿真验证结果
在100×100网格环境中的实验表明,DQN算法在路径长度和收敛速度上均显著优于模拟退火(SA)、A-star(A*)和进化算法(EA)。当动作空间为360°(1°增量)时,路径最接近最短路线,平均转角仅0.5°,成功率达100%。不同ε值测试显示ε=0.6时探索-利用平衡最优。
地磁建模鲁棒性分析
与克里金插值、双三次插值和梯度提升回归相比,本文方法在RMSE(4.1835)、PSNR(32.624)和PPMCC(0.9925)指标上均表现最优。热力图显示该方法预测场与真实场几乎重叠,能有效保留地磁场尖锐特征。
时变磁异常适应性
在注入三个随时间漂移的高斯磁异常(峰值±30nT)的极端环境下,算法成功通过"慢速移动""快速掠过"和"交叉穿透"等典型海况测试。AUV能够根据磁梯度变化自主调整路径,形成明显的"S"形避障轨迹,证明方法对动态干扰的强适应性。
该研究通过深度强化学习与地磁感知的深度融合,解决了未知环境下AUV自主导航的核心难题。创新的动态地磁图构建方法和启发式动作选择策略,不仅提高了导航精度和效率,还为复杂环境下的智能导航提供了新范式。研究成果对深海勘探、水下作业等实际应用具有重要价值,为未来智能海洋装备的发展奠定了理论基础。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号