不确定场景下自主船舶动态避碰的分层强化学习控制与泛化性能研究
【字体:
大
中
小
】
时间:2025年09月28日
来源:Knowledge-Based Systems 7.6
编辑推荐:
本文提出一种基于分层强化学习(HRL)框架的自主船舶动态避碰控制方法,通过高层全局意图规划与低层精细舵控的结合,显著提升策略可解释性、稳定性与行为一致性;引入多维不确定性建模机制(如初始状态与障碍行为模式随机化),增强策略在动态环境中的泛化能力与适应性,为智能航运提供高性能避障解决方案。
Reference coordinate system
如图1所示,本研究定义了地理坐标系 o-xyz 与船体坐标系 o-xbybzb,用于描述船舶姿态 η = [x, y, ψ]T 和运动状态 V = [u, v, r]T。船体坐标系固定于船舶重心位置(xG, 0, 0),总速度 U = √(u2 + v2),漂角 β = tan?1(?v/u) 表示速度矢量与船首向的夹角。
Hierarchical Reinforcement Learning Architecture
本研究提出一种分层强化学习(HRL)框架,通过层次化结构将复杂长时序任务分解为不同抽象层级的子任务。高层策略负责低频全局动作或子目标决策,而低层策略在高层级指令指导下执行精细化控制。
本研究采用的HRL架构如图所示(具体结构略),其核心在于通过分层协同优化实现全局导航意图与局部避障响应的协调。
高层智能体的状态空间设计旨在宏观表征全局环境,支持生成粗粒度舵令指令。状态输入主要包括本船状态变量 (x, y, ψ)、至目标点距离 dtarget、障碍船相对于本船的相对位置 (xrel, yrel)、船间距离 D 以及碰撞风险指标(CRI)。整合这些特征后,高层状态表示为:
shigh = [x, y, ψ, dtarget, xrel, yrel, D, CRI]
本节从训练过程、避障性能和典型场景行为三个维度全面分析所提出的分层强化学习(HRL)策略在动态船舶避障中的表现。为突显分层设计的性能优势,研究对比了三种基线方法:(1)经典单层强化学习算法近端策略优化(PPO);(2)基于双延迟深度确定性策略梯度(TD3)的单层方法;(3)结合规则引擎的混合架构。
本研究提出了一种基于分层强化学习的自主船舶动态避障策略,适用于复杂不确定环境下的导航任务。该框架通过解耦高层全局决策与低层舵控动作,使智能体能够有效应对初始条件不确定性和障碍物行为多变性的挑战。
在四种典型COLREGs遭遇场景中的对比实验表明,HRL在策略稳定性、收敛速度、避障成功率和泛化能力方面均一致优于单层架构。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号