基于深度强化学习的AUV地磁感知导航方法研究：动态建图与路径优化的突破

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Journal of Oceanic Engineering》：Research on Geomagnetic Perceiving Navigation Method Based on Deep Reinforcement Learning

【字体：大中小】 时间：2025年11月25日 来源：IEEE Journal of Oceanic Engineering 5.3

编辑推荐：

　　针对未知环境下自主水下航行器(AUV)无先验地图导航难题，西安邮电大学研究团队提出一种基于深度Q网络(DQN)的地磁感知导航方法。该方法通过构建融合地磁数据的深度强化学习模型，结合启发式动作选择策略实现探索-利用平衡，并利用局部地磁数据动态构建全局地磁图。仿真结果表明，该方法能显著缩短路径长度、提升探索效率并提高地磁图精度，为复杂水下环境下的自主导航提供了新思路。

浩瀚海洋蕴藏着无尽的资源与奥秘，自主水下航行器(AUV)作为海洋探索的重要工具，在深海勘探、资源调查等领域发挥着关键作用。然而，深海环境的特殊性使得AUV导航面临巨大挑战——传统导航方法如惯性导航存在累积误差，声学导航受限于设备布设成本，而卫星导航在水下几乎失效。更棘手的是，在完全未知的环境中，缺乏先验地图信息使得路径规划变得尤为困难。

地球磁场作为一种稳定的物理现象，其近地空间分布具有复杂的多样性，这为水下导航提供了天然参考系。自然界中，海龟和信鸽等生物正是利用地磁导航能力完成长途迁徙，这种仿生灵感促使研究人员探索地磁导航在AUV中的应用。但传统地磁导航方法往往依赖预存的地磁图或参数化模型，在动态未知环境中适应性有限。特别是海底地磁异常和噪声干扰会导致奖励信号稀疏，容易使策略陷入局部最优。

为解决这些难题，西安邮电大学李红团队在《IEEE Journal of Oceanic Engineering》发表最新研究，提出了一种基于深度Q网络(DQN)的地磁感知导航方法。该方法创新性地将深度强化学习与地磁导航相结合，通过动态构建地磁图和优化动作选择策略，实现了AUV在未知环境下的高效导航。

研究团队采用了几项关键技术：首先构建了包含位置坐标、目标点和地磁向量(B_x, B_y)的多维状态空间，将动作空间离散化为360个转向角度；其次设计了融合距离奖励、地磁匹配奖励和目标达成奖励的复合奖励函数，其中地磁奖励通过比较观测值与预期地磁场的欧氏距离来计算；第三引入了启发式ε-greedy策略，根据与目标距离动态调整探索概率，远距离时保持高探索性，接近目标时侧重利用已学知识；最后结合国际地磁参考场(IGRF)模型和深度学习回归模型，利用AUV采集的局部地磁数据动态预测并更新全局地磁图。

状态空间与动作空间设计

研究将马尔可夫决策过程(MDP)定义为四元组(S,A,P,R)，状态向量包含AUV当前位置(x_t, y_t)、目标位置(X_g, Y_g)、地磁分量(B_x, B_y)和欧氏距离d_t。动作空间包含360个离散转向角度，每个动作对应角增量决定运动方向。这种设计既简化了动作选择过程，又为DRL算法提供了清晰的动作空间。

奖励函数设计

奖励函数包含四个组成部分：基于距离变化的奖励R_distance=α·(d_original-d_new)，鼓励AUV向目标靠近；地磁奖励R_geomagnetic=β·(1-‖M_observed-M_expected‖₂)，促进观测地磁向量与预期场对齐；目标达成奖励R_goal和步进惩罚R_step。这种复合奖励机制有效平衡了路径效率与地磁特征利用。

DQN模型构建

研究采用多层全连接神经网络结构，隐藏层使用ReLU激活函数引入非线性，输出层使用线性激活函数预测各动作Q值。通过最小化时序差分(TD)误差损失函数L(θ)=E[(r+γ·max_a′Q(s′,a′;θ′)-Q(s,a;θ))²]，使模型能够从高维状态空间中学习复杂策略。

地磁图动态构建

通过以AUV当前位置为中心定义圆形采样区域，利用IGRF模型计算采样点地磁值，结合深度学习模型预测未知区域地磁值。地图更新采用混合方法：M_expected(x,y)=α·M?_DL(x,y)+(1-α)·M_IGRF(x,y)，既保留全球趋势又捕捉局部异常。通过最小化均方根误差(RMSE)损失函数持续优化预测模型。

仿真验证结果

在100×100网格环境中的实验表明，DQN算法在路径长度和收敛速度上均显著优于模拟退火(SA)、A-star(A*)和进化算法(EA)。当动作空间为360°(1°增量)时，路径最接近最短路线，平均转角仅0.5°，成功率达100%。不同ε值测试显示ε=0.6时探索-利用平衡最优。

地磁建模鲁棒性分析

与克里金插值、双三次插值和梯度提升回归相比，本文方法在RMSE(4.1835)、PSNR(32.624)和PPMCC(0.9925)指标上均表现最优。热力图显示该方法预测场与真实场几乎重叠，能有效保留地磁场尖锐特征。

时变磁异常适应性

在注入三个随时间漂移的高斯磁异常(峰值±30nT)的极端环境下，算法成功通过"慢速移动""快速掠过"和"交叉穿透"等典型海况测试。AUV能够根据磁梯度变化自主调整路径，形成明显的"S"形避障轨迹，证明方法对动态干扰的强适应性。

该研究通过深度强化学习与地磁感知的深度融合，解决了未知环境下AUV自主导航的核心难题。创新的动态地磁图构建方法和启发式动作选择策略，不仅提高了导航精度和效率，还为复杂环境下的智能导航提供了新范式。研究成果对深海勘探、水下作业等实际应用具有重要价值，为未来智能海洋装备的发展奠定了理论基础。

联系信箱：

粤ICP备09063491号

热点排行