基于世界模型的强化学习在自主船舶安全碰撞避免中的应用
《Engineering Applications of Artificial Intelligence》:World model-based reinforcement learning for autonomous ship safe collision avoidance
【字体:
大
中
小
】
时间:2025年10月17日
来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
世界模型与强化学习结合优化自主船舶动态避碰,通过VAE-Transformer压缩高维观测数据,树搜索算法优化轨迹,多目标损失函数提升环境适应性与泛化能力,实验验证其可靠性与数据效率优势。
自主船舶在复杂海事环境中实现动态避碰面临诸多挑战。这些环境通常具有高采样需求、昂贵的试错过程以及有限的适应能力。传统的人工智能方法,如强化学习(Reinforcement Learning, RL),虽然在顺序决策方面表现出色,但其依赖于预定义的数据集和固定的训练场景,往往难以应对快速变化的障碍物和不确定的航行条件。为了解决这些问题,本研究提出了一种新的框架,名为“基于世界模型的强化学习用于自主船舶安全避碰”(Safe Ship Collision Avoidance with World Model-based Reinforcement Learning, SSCAWM)。该框架利用世界模型技术,以实现安全且适应性的海事导航。
世界模型是一种能够有效表示现实世界的模型,它通过学习环境的无监督时空压缩表示,来预测和规划未来的状态。这种能力使得智能体能够在多种任务中做出最优决策。世界模型通过预测未来结果,支持了规划和学习行为,同时减少了对真实世界交互的依赖。此外,世界模型还能够自主总结环境中的相关知识,并将其应用于新的任务。本研究首次将世界模型理论应用于自主船舶避碰领域,提出了一种全新的方法,即SSCAWM。该方法通过将变分自编码器(Variational Auto-Encoder, VAE)与基于Transformer的序列模型相结合,将高维的航行观测压缩到一个潜在的表示空间中。在此基础上,引入了树搜索算法,以优化局部轨迹,并结合了基于Actor策略的加权融合,提高了决策的稳定性和安全性。此外,通过使用多目标损失函数和随机化的训练场景,进一步增强了框架的鲁棒性和在不同海事环境中的泛化能力。
在自主船舶避碰的研究中,现有方法主要集中在测量动态最近会遇点(Dynamic Closest Point of Approach, DCPA)和最近会遇时间(Time to Closest Point of Approach, TCPA)。例如,Kang等人(2019)设定了DCPA和TCPA的最小阈值,隐式地定义了船长可接受的航行风险上限。这种方法有助于在复杂的海事场景中管理避碰问题。Xu等人(2022)则进一步扩展了这一思路,开发了用于船舶之间DCPA和TCPA的模型,从而能够更精确地评估避碰风险。然而,这些方法通常假设导航环境是已知且固定的,因此在动态和不可预测的环境中表现出一定的局限性。
为了提高自主船舶在复杂环境中的适应能力和决策效率,本研究提出了一种基于部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process, POMDP)的动态避碰决策模型。该模型结合了强化学习的机制,使智能体能够隐式地构建工作记忆(Working Memory, WM),从而更有效地学习环境特征。为了优化决策策略,我们引入了树搜索算法,在学习到的世界模型的潜在空间中进行局部轨迹的优化,并寻找最佳的策略。树搜索算法能够帮助智能体在复杂环境中快速找到可行的路径,同时避免潜在的碰撞风险。
在世界模型的设计中,我们采用了变分自编码器(VAE)技术,这是一种能够从高维观测数据中提取潜在表示的模型。VAE能够有效地将复杂的航行图像压缩为更简洁的潜在空间,使得智能体能够以更少的计算资源进行状态预测和决策制定。同时,基于Transformer的序列模型也被引入,以增强对时间序列数据的建模能力,从而更好地预测未来状态、奖励和终止条件。这种组合使得SSCAWM能够在复杂的海事环境中进行更精确的预测和规划,同时减少对真实世界交互的依赖。
在实验设置方面,我们使用NVIDIA GeForce RTX 4090显卡和Linux系统对SSCAWM进行了训练。在实验过程中,我们首先对多个算法,包括SSCAWM、PPO(Proximal Policy Optimization)、DQN(Deep Q-Network)、QRDQN(Quantile Regression DQN)、TRPO(Trust Region Policy Optimization)和A2C(Advantage Actor-Critic)进行了训练,以比较它们的训练效率。随后,我们选择了两个水域作为实验环境,分别测试了SSCAWM、PPO和DQN算法,并记录了航行规划的结果。通过这些实验,我们评估了SSCAWM在不同环境下的表现,并与传统强化学习方法进行了对比。
实验结果表明,SSCAWM在复杂条件下实现了可靠的避碰能力和适应性,同时减少了对大量真实世界数据的依赖。与传统的PPO和DQN方法相比,SSCAWM在训练效率和泛化能力方面表现出显著优势。此外,SSCAWM在处理动态障碍物和不确定的航行条件时,能够更有效地调整策略,从而提高航行的安全性和稳定性。实验数据还表明,SSCAWM在不同水域中的表现具有良好的一致性,能够适应多变的海事环境。
尽管SSCAWM在多种海事环境中表现出色,但仍存在一些局限性。首先,世界模型可能在长时间范围内积累预测误差,这可能会影响规划的准确性,尤其是在需要长期预测的场景中。其次,当前的评估主要基于模拟环境,而这些环境通常简化了动态特性,未能充分反映真实世界中的各种干扰因素,如波浪、风力和传感器噪声。此外,静态障碍物的数量和布局是固定的,这在一定程度上限制了模型在实际应用中的灵活性。因此,未来的改进方向可能包括优化世界模型的预测能力,以减少长期误差的影响;同时,引入更真实的训练环境,以增强模型对实际干扰因素的适应能力。
此外,SSCAWM框架的另一大优势在于其对多目标损失函数的应用。传统的强化学习方法通常关注单一目标,如最大化奖励或最小化碰撞风险。然而,在复杂的海事环境中,船舶的避碰决策往往需要综合考虑多个因素,如航行安全性、路径效率和系统稳定性。通过引入多目标损失函数,SSCAWM能够在训练过程中同时优化这些目标,从而提高整体决策的质量。这种多目标优化机制使得智能体能够在不同的航行条件下做出更加全面和合理的决策,提高了避碰系统的鲁棒性。
在训练过程中,我们还采用了随机化的训练场景,以增强模型的泛化能力。传统的方法通常在固定的场景中进行训练,这可能导致模型在面对新的、未见过的环境时表现不佳。而随机化的训练场景能够模拟更多样化的环境变化,使得智能体在面对不同的障碍物配置和航行条件时,能够更好地调整策略,提高适应能力。这种随机化训练方式不仅提高了模型的鲁棒性,还增强了其在不同水域中的泛化能力。
SSCAWM框架的另一个重要特点在于其对Actor策略的加权融合。传统的强化学习方法通常采用单一策略进行决策,这可能导致在复杂环境中出现策略不一致或不稳定的问题。而SSCAWM通过将树搜索算法优化得到的局部轨迹与Actor策略相结合,并进行加权融合,使得智能体能够在不同情况下选择最优的决策策略。这种融合机制提高了决策的稳定性,使得避碰系统在面对动态障碍物和不确定的航行条件时,能够更加可靠地运行。
总的来说,SSCAWM框架为自主船舶的动态避碰提供了一种新的解决方案。通过结合世界模型、树搜索算法和Actor策略,该框架能够在复杂和不确定的海事环境中实现高效、稳定和安全的避碰决策。同时,通过引入多目标损失函数和随机化的训练场景,进一步增强了模型的泛化能力和鲁棒性。这些改进使得SSCAWM在面对真实世界中的各种干扰因素时,能够更好地适应和调整策略,提高避碰系统的整体性能。
在实际应用中,SSCAWM框架的潜力在于其能够减少对真实世界数据的依赖,从而降低自主船舶的开发成本。传统的方法需要大量的真实世界数据进行训练,这不仅增加了数据采集的难度,还可能导致模型在面对新的环境时表现不佳。而SSCAWM通过在模拟环境中进行训练,并利用世界模型进行状态预测和规划,能够在一定程度上减少对真实数据的依赖,提高训练效率。这种基于模拟的训练方式使得SSCAWM能够在不同的水域环境中进行测试和优化,从而提高其在实际应用中的适应能力。
此外,SSCAWM框架还能够提高自主船舶在动态环境中的决策能力。传统的避碰方法通常基于静态的环境模型,这使得它们在面对快速变化的障碍物和不确定的航行条件时表现不佳。而SSCAWM通过世界模型对环境进行动态建模,使得智能体能够实时预测未来状态,并根据预测结果调整策略。这种动态建模能力使得SSCAWM能够在复杂和不确定的海事环境中实现更加灵活和高效的避碰决策。
在实验结果中,SSCAWM在不同水域中的表现显示出良好的适应性和稳定性。通过与PPO和DQN等传统方法的对比,SSCAWM在训练效率和避碰能力方面均表现出显著优势。这表明,SSCAWM不仅能够有效应对动态障碍物,还能够在不同的航行条件下保持较高的决策质量。此外,实验结果还表明,SSCAWM在面对复杂的海事环境时,能够快速调整策略,提高避碰的可靠性。
在实际应用中,SSCAWM框架的另一个优势在于其能够减少对昂贵试错过程的依赖。传统的方法通常需要大量的试错来优化决策策略,这不仅增加了开发成本,还可能导致模型在实际应用中的性能下降。而SSCAWM通过在模拟环境中进行训练,并利用世界模型进行状态预测和规划,能够在一定程度上减少对真实世界交互的依赖,从而降低试错成本。这种基于模拟的训练方式使得SSCAWM能够在不同的水域环境中进行测试和优化,提高其在实际应用中的适应能力。
此外,SSCAWM框架还能够提高自主船舶在复杂环境中的适应能力。传统的避碰方法通常假设环境是已知且固定的,这使得它们在面对新的、未见过的环境时表现不佳。而SSCAWM通过世界模型对环境进行动态建模,使得智能体能够实时预测未来状态,并根据预测结果调整策略。这种动态建模能力使得SSCAWM能够在复杂和不确定的海事环境中实现更加灵活和高效的避碰决策。
在实验过程中,我们还对SSCAWM框架的鲁棒性进行了评估。通过在不同的训练场景中进行测试,我们发现SSCAWM能够在面对环境变化时保持较高的决策质量。这种鲁棒性使得SSCAWM在实际应用中能够更好地适应不同的海事环境,提高避碰系统的可靠性。此外,SSCAWM框架的多目标优化机制也增强了其在复杂环境中的适应能力,使得智能体能够在不同的航行条件下做出更加全面和合理的决策。
综上所述,SSCAWM框架为自主船舶的动态避碰提供了一种新的解决方案。通过结合世界模型、树搜索算法和Actor策略,该框架能够在复杂和不确定的海事环境中实现高效、稳定和安全的避碰决策。同时,通过引入多目标损失函数和随机化的训练场景,进一步增强了模型的泛化能力和鲁棒性。这些改进使得SSCAWM在面对真实世界中的各种干扰因素时,能够更好地适应和调整策略,提高避碰系统的整体性能。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号