
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:无人水面艇碰撞避障的深度强化学习技术现状
【字体: 大 中 小 】 时间:2025年09月20日 来源:Applied Ocean Research 4.4
编辑推荐:
本综述系统梳理了深度强化学习(DRL)在无人水面艇(USV)碰撞避障中的前沿进展,涵盖基于值函数(如DQN、Double DQN)、策略梯度(如PPO、DDPG、SAC)和多智能体DRL(如QMIX、MADDPG)方法。重点讨论了奖励函数设计、状态空间构建、探索策略、国际海上避碰规则(COLREGs)合规性及抗扰动能力等关键问题,为自主海事系统的工程化部署提供了理论支撑和技术路线。
无人水面艇(USV)因其在水质监测、海事巡逻、环境监测、港口运输和水文测量等领域的广泛应用而受到显著关注。与有人船舶相比,USV能够在恶劣或危险的海事条件下自主连续运行,减少直接人为干预的需求,提高操作安全性和效率。然而,核心挑战依然存在:如何在动态海洋环境中实现可靠、实时的碰撞避障。
现有USV碰撞避障方法大致可分为四类:基于几何的方法、基于规则的方法、基于优化的方法和基于深度强化学习(DRL)的方法。基于几何的方法(如速度障碍法VO、互惠速度障碍法RVO、最优互惠碰撞避障ORCA和动态窗口法DWA)通过分析自身船(OS)与目标船(TS)在速度和位置空间中的空间关系来确定无碰撞运动。这些方法计算效率高,适用于动态和非结构化环境中的实时决策,但由于其固有的运动学性质和短时域决策,通常无法考虑全局路径最优性、环境不确定性、法规符合性(如COLREGs)以及实际船舶的动态约束和操纵特性,可能导致实践中不可行或次优的轨迹。
基于规则的方法依赖预定义的导航规则,如COLREGs。这种方法根据当前情况适用的规则为USV提供碰撞避障决策。然而,如果遇到的场景与预定义规则不匹配,该方法可能无法找到合适的决策。
基于优化的方法建立决策模型,将碰撞避障问题转化为优化问题,然后使用相关优化算法确定最优无碰撞路径。这些方法包括模型预测控制(MPC)、人工势场(APF)、遗传算法(GA)、粒子群优化(PSO)和A*算法等。优化方法在处理多目标和约束方面表现出色,但计算复杂度高,实时性差,难以在动态环境中实时应用。
基于DRL的方法利用大量历史数据训练神经网络策略以进行碰撞避障决策。这些历史数据可以是真实的或仿真环境中生成的虚拟数据。这些方法包括深度Q网络(DQN)、近端策略优化(PPO)、软演员-评论家(SAC)、双延迟深度确定性策略梯度(TD3)和深度确定性策略梯度(DDPG)等。
与基于几何、优化和规则的方法相比,基于DRL的方法由于以下几个显著优势而日益被采用,这些优势与海事碰撞避障的需求高度契合:
在复杂高维空间中具有实时决策能力。DRL算法能够处理高维和非线性状态-动作表示,这在涉及多个动态代理和连续控制变量的海事场景中常见。
对环境干扰具有鲁棒性。由于其数据驱动的性质,DRL策略能够在变化的条件(如风、浪和流)下保持稳定性能,因此被认为对不确定的海事环境具有鲁棒性。
与COLREGs兼容。通过定制奖励函数或约束学习策略,DRL可以适应以确保符合COLREGs,这是USV实际部署的关键要求。
DRL结合了强化学习(RL)和深度学习(DL),使智能体能够与环境交互并学习最优策略以实现特定目标。RL提供由奖励驱动的决策机制,而DL利用神经网络的强大特征提取能力,使DRL能够处理高维和复杂的状态和动作空间。
强化学习基础
强化学习是机器学习中的一类方法,旨在解决顺序决策问题。其核心思想是通过智能体与环境之间持续交互获得的奖励信号不断改进策略,从而实现长期回报的最优决策。RL主要包括五个组件:智能体、环境、动作、状态和奖励。智能体是负责选择和执行动作并从环境中学习的实体。在每个时间步,智能体根据当前状态选择动作,与环境的交互生成新状态。环境代表智能体操作的外部世界,通过提供状态转换和奖励与智能体交互。状态描述智能体在给定时间感知的环境特征,可以是低维特征向量或高维数据(如图像)。动作指智能体在给定状态下的行为,动作空间可以是离散的(如舵角调整)或连续的(如控制船舶的力和扭矩)。奖励是环境提供的标量信号,用于指导策略改进。
形式上,RL可以建模为马尔可夫决策过程(MDP),由五元组(S, A, P, R, γ)定义,其中S是状态空间,A是动作空间,P(s′|s,a)是从状态s到状态s′给定动作a的状态转移概率,R(s,a)是在状态s采取动作a后的期望即时奖励,γ∈[0,1)是反映未来奖励重要性的折扣因子。
在每个离散时间步t,智能体观察状态s∈S并根据策略π(a|s)选择动作a∈A。执行动作后,环境以概率P(s′|s,a)转移到新状态s′,并提供标量奖励rt=R(s,a)。这种交互随时间持续,生成轨迹:(s0, a0, r0, s1, a1, r1, …)。为衡量智能体行为质量,定义回报Gt为未来奖励的折扣和:Gt=∑k=0∞γkrt+k+1,其中k是时间步偏移,表示距当前时间步t的距离,rt+k+1表示在时间t+k+1收到的即时奖励。
RL的目标是找到最优π以最大化期望回报。价值函数是RL中的基本概念,用于衡量给定状态(或状态-动作对)在特定策略π下的期望回报。状态价值函数Vπ(s)定义为:Vπ(s)=E[Gt|s=s,π],状态-动作价值函数Qπ(s,a)定义为:Qπ(s,a)=E[Gt|s=s,a=a,π]。这些价值函数满足贝尔曼方程。对于状态价值函数:Vπ(s)=∑a∈Aπ(a|s)∑s′∈SP(s′|s,a)[R(s,a)+γVπ(s′)]。类似地,对于状态-动作价值函数:Qπ(s,a)=R(s,a)+γ∑s′∈SP(s′|s,a)∑a′∈Aπ(a′|s′)Qπ(s′,a′)。
深度学习基础
深度学习是一种机器学习范式,利用多层神经网络架构通过分层特征抽象和非线性变换从原始数据中自动提取相关表示和模式。与传统浅层模型严重依赖手动设计特征不同,DL采用深度网络结构和大规模数据集有效捕捉数据中隐藏的复杂关系。这种方法显著增强了模型的表示能力和泛化能力。在DRL中,深度神经网络作为价值函数、策略或环境动力学等关键组件的强大函数逼近器。通过将这些网络集成到强化学习框架中,DRL能够高效学习高维和复杂状态空间中的决策策略,从而减少特征设计中的人为干预需求。
DL方法包含多种网络架构,可根据其结构特征和目标应用领域进行分类:
前馈神经网络(FNNs):是最基本的架构,由多层全连接神经元组成。FNNs适用于通用特征变换和表示学习任务,为更专业的网络设计提供基础构建块。
卷积神经网络(CNNs):通过采用具有权重共享机制的卷积核,CNNs擅长从空间或时空数据中提取和聚合局部特征。在DRL场景中(如依赖原始传感器输入或相机图像的海事碰撞避障系统),CNNs促进高维输入数据的高效处理以进行明智决策。
循环神经网络(RNNs)及其变体:基于RNN的架构维护内部状态以捕捉时间依赖性,使其适用于随时间展开的决策任务。对于海事应用,USV必须考虑不断变化的环境条件、动态船舶行为和顺序碰撞避障决策,RNNs及其变体特别有用。
通过战略性地选择和集成不同的DL架构,基于DRL的USV碰撞避障系统可以更有效地适应多样化的操作要求和环境复杂性,最终提高自主导航的安全性和效率。
基于值的方法学习状态-动作价值函数Q(s,a),其估计在状态s采取动作a获得的期望未来累积奖励。在传统强化学习中,价值函数通常以表格形式存储。虽然这种方法在低维状态和动作空间中可行且高效,但在高维连续状态空间中直接存储和更新表格价值函数变得棘手。在这种情况下,引入函数逼近技术(如线性函数、核方法或神经网络)来逼近价值函数。DRL利用深度神经网络作为函数逼近器来估计Q(s,a),从而能够直接从原始高维输入中提取特征和获取价值估计,而无需手动特征工程。
在基于值的方法中,策略可以直接从Q(s,a)导出,使用贪婪或ε-贪婪策略:对于给定状态s,选择动作a=argmaxa′Q(s,a′)近似最优策略。随着价值函数通过时间差误差迭代更新和收敛,最终可以获得近似最优策略。
DQN
DQN由DeepMind团队于2015年提出,通过使智能体能够处理高维状态空间,代表了DRL的重大进展。它在多个Atari游戏中超越了人类水平性能,展示了其在复杂决策任务中的潜力。DQN架构包括三个主要组件:回放缓冲区、当前Q网络和目标Q网络。回放缓冲区存储过去的转移(s,a,r,s′),这些转移被均匀采样以打破相关性并稳定训练。当前网络参数化为θ,估计Q值并通过最小化时间差损失进行更新:L(θ)=E(s,a,r,s′)~U(D)[(y?Qθ(s,a))2],其中目标值由y=r+γmaxa′Qθ?(s′,a′)给出,γ是折扣因子,θ?表示目标网络参数。为稳定学习,目标网络参数θ?通过从当前网络复制定期更新:θ?←θ。这种目标生成和预测的解耦减轻了训练过程中的振荡和发散。
Double DQN
标准DQN由于使用相同网络进行动作选择和评估,倾向于高估Q值。为解决这个问题,提出了Double DQN,它将动作选择和动作评估解耦。具体来说,使用当前网络选择最大化Q值的动作,而使用目标网络估计其价值:y=r+γQθ?(s′,argmaxa′Qθ(s′,a′))。这种修改减少了高估偏差,提高了价值学习的稳定性和准确性。
Dueling DQN
为增强在动作选择对结果影响很小的环境中的学习效率,提出了Dueling DQN。这种架构将Q值函数分解为两个独立的估计器:状态价值函数V(s)和优势函数A(s,a)。最终Q值计算为:Q(s,a)=V(s)+(A(s,a)?1/|A|∑a′A(s,a′))。这种结构允许智能体学习哪些状态有价值,而无需学习每个状态下每个动作的效果,从而带来更好的泛化和收敛。
Noisy DQN
在Noisy DQN中,通过噪声线性层将随机探索直接嵌入网络,取代了外部探索策略(如ε-贪婪)的需求。噪声线性变换定义为:y=(μw+σw⊙?w)x+(μb+σb⊙?b),其中μ和σ是可学习参数,?表示从固定分布采样的噪声。这种技术实现了自适应和状态依赖的探索,在稀疏奖励或高维任务中特别有益。
Dyna-DQN
Dyna-DQN通过结合Dyna框架扩展了原始DQN,该框架结合了无模型和基于模型的学习以提高数据效率。除了从真实环境交互中学习外,Dyna-DQN训练环境动力学和奖励函数的预测模型,使智能体能够生成模拟转移进行规划。在训练期间,使用真实经验元组更新世界模型,而Q网络在真实和模拟样本上训练。规划过程涉及采样状态,使用学习模型预测下一个状态和奖励,并使用这些合成经验进一步更新Q函数。这种机制显著减少了对真实世界交互的依赖并加速了收敛。
除了基于值的方法外,策略梯度方法代表了强化学习中的另一主要方法。这些方法直接参数化策略函数并通过梯度上升优化期望回报。然而,纯策略梯度方法通常遭受高方差和不稳定收敛的困扰。为解决这些问题,开发了演员-评论家(AC)框架,将价值函数估计与策略优化相结合,从而减少策略梯度估计的方差并为策略更新提供稳定可靠的学习信号。由于其与纯策略梯度方法相比具有卓越的稳定性和样本效率,AC框架已成为基于DRL的USV碰撞避障中的主导范式。
演员-评论家方法包括两个主要组件:演员和评论家。演员网络根据当前状态生成策略(即动作分布),而评论家网络评估演员提出的策略。具体来说,演员网络通过策略梯度方法更新其策略参数,而评论家网络估计价值函数以评估给定状态下动作的相对优点并相应更新其价值函数。
PPO
PPO是一种广泛采用的演员-评论家算法,通过约束策略更新的幅度来稳定策略学习。核心思想是引入裁剪替代目标,防止新旧策略之间的较大偏差。定义更新策略与先前策略之间的概率比为:r(θ)=πθ(a|s)/πθold(a|s)。为评估动作质量,基于估计的价值和Q函数计算优势函数Aπθold(s,a)。策略更新由裁剪目标调节:Lclip(θ)=Es,a[min(r(θ)A(s,a), clip(r(θ),1??,1+?)A(s,a))],其中?是一个小常数(通常为0.1或0.2)。这种保守的更新方案降低了策略崩溃的风险并提高了训练鲁棒性。同时,评论家网络通过最小化预测值与目标回报之间的均方误差进行训练:Lcritic(?)=Es[(V?(s)?Vtarget)2],其中Vtarget表示当前策略下的估计回报。
A3C
异步优势演员-评论家(A3C)是一种并行化的演员-评论家算法,旨在提高数据吞吐量并解相关训练样本。与依赖集中式梯度更新的同步方法不同,A3C启动多个并行工作器,这些工作器独立地与自己的环境实例交互。每个工作器使用从本地轨迹计算的梯度异步更新共享全局模型,从而减少对经验回放的需求并实现更快的收敛。采用优势函数来减少策略梯度估计的方差,定义为:A(s,a)=Q(s,a)?V(s),这有助于稳定训练。通过异步聚合来自不同环境的经验,A3C提高了探索和样本效率。
DDPG
DDPG是一种无模型、离策略算法,采用确定性策略处理连续动作空间。演员网络直接将状态映射到确定性动作a=πθ(s),而评论家估计相应的Q值Q?(s,a)。采用双网络(在线和目标)用于演员和评论家,目标网络通过软更新进行更新以增强稳定性。评论家网络通过最小化时间差误差进行更新:Lcritic(?)=E[(Q?(s,a)?(r+γQ?′(s′,πθ′(s′))))2],其中目标网络(?′,θ′)从其在线对应物缓慢更新。演员网络使用确定性策略梯度进行优化:Lactor(θ)=?Es[Q?(s,πθ(s))],这鼓励最大化估计Q值的动作。通过经验回放和软更新,DDPG在高维连续控制任务中实现稳定收敛。
TD3
TD3被提出来解决DDPG中观察到的高估偏差和不稳定性问题。TD3的关键创新是使用双评论家网络计算目标Q值:yt=rt+γmini=1,2Q?i′(s′,πθ′(s′)),这有助于通过取两个估计的最小值来抑制高估的Q值。此外,TD3延迟演员更新和目标网络更新相对于评论家。这种延迟策略更新机制通过允许评论家网络在更新演员之前更有效地收敛来稳定训练过程。此外,通过向目标动作中注入裁剪的高斯噪声来应用目标策略平滑,这有助于减轻高估误差并促进更平滑的价值估计:?′=πθ′(s′)+?, ?~clip(N(0,σ),?c,c),这通过使其对动作的小变化不太敏感来规范化评论家,并改善连续动作空间中的泛化。通过整合这些技术,TD3显著提高了确定性策略学习的稳定性和性能。
SAC
SAC通过引入随机策略和熵正则化来扩展DDPG,以改进探索和鲁棒性。在SAC中,策略输出概率分布πθ(a|s),从中采样动作。将熵项H(πθ(?|s))添加到奖励中以鼓励探索:H(πθ(?|s))=?Ea~πθ[logπθ(a|s)]。目标Q值包含期望回报和熵:yt=rt+γ(mini=1,2Q?i′(s′,a′)?αlogπθ(a′|s′)),其中α是熵系数,a′~πθ(?|s′)。评论家损失定义为:Lcritic(?)=E[(Q?(s,a)?yt)2],而演员通过最小化进行优化:Lactor(θ)=Es[αlogπθ(a|s)?Q?(s,a)]。使用双评论家和软目标更新进一步增强了稳定性和减轻了价值高估。
多智能体深度强化学习(MADRL)将单智能体范式扩展到涉及多个交互智能体的环境。这些方法旨在解决非平稳动力学、部分可观测性和智能体间协调等挑战。代表性算法包括:
QMIX
QMIX是一种协作基于值的算法,在单调约束下将全局动作价值函数分解为单个智能体效用。具体来说,总Q值表示为每个智能体局部Q函数的单调非线性函数:Qtot(s,a)=f(Q1,Q2,…,Qn,s),其中?Qtot/?Qi≥0。这种分解支持分散执行的同时允许集中训练,确保局部和全局最优之间的一致性。
MADDPG
MADDPG通过采用可访问联合观察和动作的集中评论家将DDPG扩展到多智能体设置。每个智能体学习一个用于分散执行的个体演员,而其评论家使用来自所有智能体的信息进行训练以考虑非平稳交互。这种集中训练与分散执行框架提高了智能体间的稳定性和协调性。
MATD3
MATD3是TD3的多智能体适应,引入双评论家和延迟策略更新以减少高估偏差并提高收敛稳定性。每个智能体维护自己的演员和双集中评论家。此外,通过向目标动作添加裁剪高斯噪声来应用目标策略平滑,帮助评论家在连续动作空间中学习更平滑的价值景观。
MAPPO
MAPPO通过结合CTDE和共享评论家结构将近端策略优化(PPO)适应到多智能体设置。保留裁剪替代目标以确保稳定的策略更新:L(θ)=Es,a[min(r(θ)A(s,a), clip(r(θ),1??,1+?)A(s,a))],其中r(θ)表示策略比。通过在智能体间共享评论家参数和维护个体策略,MAPPO平衡了协调效率和可扩展性。
奖励函数设计
DRL基于USV碰撞避障中的奖励函数设计必须同时满足多个性能要求,包括任务效率、导航安全、规则符合性和控制稳定性。为实现多目标优化,大多数现有研究采用多个子奖励的加权和,从而实现不同行为维度的策略指导和性能权衡。
为增强任务完成效率,通常引入面向目标的奖励机制以驱动USV快速稳定地到达预定义航点或任务区域。典型方法涉及基于USV与目标之间的欧几里得距离构建正奖励,这促进路径收敛并减少旅行时间。此外,一些研究将当前航向与目标方向之间的角度偏差作为惩罚项纳入,以提高航向调整的响应性和准确性。为加强方向指导的连续性和可微性,利用APF或高斯函数构建朝向目标区域的吸引势。此外,当前和期望速度之间的偏差也在一些工作中被考虑以鼓励速度调节和高效运动执行。在轨迹跟踪任务中,采用轨迹偏差指标评估路径遵守情况并促进沿期望路径的平滑导航。
与任务效率并行,导航安全是奖励函数设计中的另一个关键目标。为抑制危险行为并实现安全避障,基于碰撞风险建模的惩罚机制已被广泛实施。最常见的方法是在USV接近障碍物 within 一定距离阈值时施加负奖励。若干研究进一步引入分段或高斯形状的惩罚函数以改进接近风险建模。为提高风险估计的准确性,多项工作采用领域特定指标,如最近会遇距离(DCPA)和最近会遇时间(TCPA),结合相对方位、速度和位置以预测潜在碰撞场景。此外,使用VO和RVO模型已被提出来确定当前速度矢量是否落在未来碰撞锥内,从而实现预期避障行为。此外,最小碰撞时间、相对速度差异和与合力方向的角度偏差已在一些研究中被共同考虑。模糊逻辑函数也被应用于不确定条件下的连续风险评估,进一步增强了学习策略的适应性。
规则符合性是真实世界USV部署中不可或缺的约束。然而,COLREGs的建模和集成到DRL奖励函数中仍然有限,其规范性对决策的影响尚未完全反映。一些研究在策略训练期间没有明确纳入基于规则的约束,导致避障行为缺乏法律可解释性和合规性。为提高监管遵守度,若干工作专注于COLREGs规则13-15 addressed的场景,特别是对遇和交叉相遇。常见策略涉及为非法操纵(如向左转)分配固定惩罚,从而抑制不合规动作并引导USV学习符合规则的右舷操纵。除了惩罚塑造外,一些研究将COLREGs编码为自适应干扰流体动力学系统(AIFDS)式流场中的操作符,并使用奖励训练Meta-TD3策略以平衡规则符合性和能源效率,同时使用基于卡尔曼的对手轨迹预测以实现预期、规则符合的避障。此外,有研究提出将COLREGs要求嵌入碰撞风险指数的构建中,允许在风险评估阶段执行监管约束,从而支持从感知到决策的端到端合规性。
与上述维度相比,控制稳定性在现有研究中受到相对有限的关注。在大多数情况下,该因素未在奖励设计中明确建模。相反,一些工作尝试通过惩罚动作输出的频繁或突然变化来调节控制波动。例如,引入动作切换惩罚以提高策略平滑度,而使用航向角变化率来限制激进转弯操纵。Sigmoid函数已被应用于平滑角度误差并减少控制不连续性。此外,已提出考虑角速度误差和线速度稳定性的联合奖励结构以提高航向调整和推进控制之间的协调性,同时有研究建议限制航向变化幅度以鼓励小角度转弯,从而增强操纵舒适性。
状态空间构建
状态空间的构建在基于DRL
生物通微信公众号
知名企业招聘