一种基于改进型DQN的海事搜救路径规划方法
《International Journal of Digital Earth》:A maritime search and rescue path planning method based on improved DQN
【字体:
大
中
小
】
时间:2025年10月08日
来源:International Journal of Digital Earth 4.9
编辑推荐:
本文提出了一种基于改进深度Q学习的海事搜救路径规划方法,通过构建包含海洋动力学数据、遥感影像和电子海图的多源异构环境模型,实现漂流目标的精准预测和障碍规避。设计多条件约束奖励函数,结合软目标网络更新和优先级经验回放机制,优化探索与利用的平衡。实验表明该方法在复杂环境下能实现高效的全覆盖搜索,有效减少重复路径和无效区域探索,较传统算法提升效率达64.3%,且具备较强的环境适应性和训练稳定性。
在海洋搜救(SAR)任务中,搜索路径规划是决定搜救效率和成功率的关键因素。由于传统算法依赖人工决策、主观性强且难以应对复杂环境,本文提出了一种基于改进的深度Q学习(DQN)方法的海洋搜救路径规划方案。该方法首先构建了海洋搜救环境模型,以准确预测失事目标的漂移轨迹。随后,开发了一种基于深度强化学习的海洋搜救策略,通过简化动作和状态空间,以及多条件约束奖励函数,实现了搜索路径的全局优化。设计了混合探索率调整策略和半梯度策略,以提升训练效率。模型稳定性通过软目标网络更新和优先经验回放机制得以增强。仿真结果表明,该模型具有强大的多目标优化能力,能够以最小的步长实现有效区域的完全覆盖,并自动避开障碍物,重复搜索率为零。这为海洋搜救决策策略的开发提供了宝贵的参考。
海洋搜救路径规划通常分为两种类型:点对点路径规划和完全覆盖路径规划(CCPP)。前者适用于已知失事目标位置的理想场景,但存在一定局限性。当目标位置未知时,需要根据失事目标的最后位置和海洋环境数据推断其可能位置,科学规划并全面覆盖搜索区域。传统的海洋搜救CCPP方法主要依赖专家系统或常规搜索模式,如扩展正方形搜索、平行线搜索、扇形搜索和横向线搜索。虽然这些方法在某些情况下有效,但往往过度依赖专家经验或过于机械,难以应对复杂且不断变化的搜救环境,尤其是在概率分布随时间变化的情况下。此外,传统的搜索规划和求解方法,如精确算法、启发式算法和元启发式算法等,在某些情况下可以有效,但在应用于大规模和复杂优化问题时仍面临相当大的挑战。
为了解决海洋搜救路径规划中的智能化不足,研究人员尝试将人工智能应用于这一过程。在人工智能领域,强化学习(RL)是解决优化决策问题的有效工具,尤其是在缺乏先验信息的情况下。RL通过与环境的交互学习行为策略,以最大化累积奖励。海洋搜救路径规划可以建模为一个马尔可夫决策过程,其中搜救船作为智能体根据当前环境信息选择导航动作,这为RL在该领域的应用提供了理论基础。然而,传统RL面临处理高维状态空间和策略泛化能力有限等挑战。
深度强化学习(DRL)通过结合深度学习与RL,能够处理高维、动态和不确定的问题,从而为复杂海洋环境下的路径规划提供了新的解决方案。目前,DRL网络仍存在学习效率低、收敛速度慢和对参数变化敏感等问题。为克服这些限制,本文提出了一种加速样本训练、增强算法稳定性和提高模型泛化能力的海洋搜救路径规划模型。这项工作为RL在海洋搜救决策中的应用提供了实际见解和理论支持。
本文的主要贡献如下:首先,构建了一个集成海洋动力学数据、遥感图像和电子海图(ENC)数据的海洋搜救环境模型,以提供目标概率分布和障碍信息。该模型准确预测了失事目标的漂移轨迹,有效模拟了搜救场景,并为搜救路径规划提供了稳健的数据基础。其次,开发了一种基于DRL的搜救策略,使用多条件约束奖励函数,帮助避免无效和危险区域,引导智能体在搜救过程中做出最优决策,提高操作效率并确保搜救安全。第三,设计了一个基于DQN的搜救路径规划模型,结合混合探索策略和半梯度策略,以平衡探索与利用,避免学习停滞和局部最优,增强模型的收敛性和鲁棒性。该模型采用软更新机制更新目标网络,以减少训练过程中的振荡和不稳定性,并利用优先经验回放机制提高数据利用效率和学习效率。
仿真实验和结果分析表明,本文提出的方法在实际案例和模拟案例中均表现出色。在实际案例中,该方法在保证高成功率的同时,有效避免了无效区域,实现了对有效区域的完全覆盖。而在模拟案例中,该方法在存在障碍物的复杂环境中依然表现出多目标优化能力,优先覆盖高概率区域,同时有效避开障碍物。与传统方法相比,该方法在搜索步骤和搜索成功率方面均具有明显优势。
在训练效率和收敛稳定性方面,本文进一步验证了所提出方法的优势。在简单场景中,该方法与Dueling DQN算法的性能相当,但展现出更高的训练效率和稳定性。而在高维复杂场景中,Dueling DQN算法未能生成有效的路径,而所提出的方法则在所有指定的训练回合中持续生成可行路径,且训练时间控制在合理范围内,进一步证明了其在复杂环境中的强适应性。
本文提出的模型通过环境建模和海洋动力学数据的整合,实现了对失事目标位置的准确预测。多条件约束奖励函数的设计使得智能体能够优先探索高概率区域,同时避免无效和危险区域。通过软目标网络更新和优先经验回放机制,DQN算法的稳定性得到了优化。混合探索率调整策略和半梯度策略的设计有效防止了局部收敛,提高了训练速度。这些策略的综合应用,使得模型在复杂海洋搜救任务中表现出色,实现了高效率和高成功率的搜救路径规划。
尽管本文提出的模型在多个方面展现出优势,但仍存在一些局限性。当前算法适用于静态环境,未考虑实时海况变化或动态障碍物对路径规划的影响。未来的工作将整合实时传感器数据和物理海洋模型,构建动态环境感知框架,以增强算法在复杂海洋环境中的适用性。此外,尽管当前模型通过策略优化提高了训练速度,但其计算复杂性仍限制了其在实时海洋搜救场景中的应用。未来的研究将致力于通过模型压缩和轻量化设计,减少算法对硬件计算能力的依赖,从而在最短时间内提供高质量的解决方案。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号