
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于记忆机制的深度强化学习实现有限环境知识下USV的COLREGs合规避障
【字体: 大 中 小 】 时间:2025年06月26日 来源:Ocean Engineering 4.6
编辑推荐:
为解决无人艇(USV)在动态海洋环境中因感知受限导致的避障决策难题,研究人员提出一种基于记忆机制的深度强化学习(MDRL)算法。该算法通过构建记忆空间整合历史导航数据,利用门控循环单元(GRU)优化短期决策,显著提升USV在波浪干扰等复杂场景下的COLREGs合规避障能力。实验证明其较传统DRL算法具有更高成功率和环境适应性,为智能航海系统开发提供新思路。
在海洋任务日益复杂的今天,无人水面艇(USV)的自主避障能力成为制约其广泛应用的关键瓶颈。传统避障算法如改进A*、人工势场(APF)和相对速度障碍(RVO)虽有一定效果,却难以应对动态海洋环境中传感器信息不全、波浪干扰等现实挑战。更棘手的是,国际海上避碰规则(COLREGs)的合规性要求进一步增加了决策复杂度。当USV仅能获取障碍物部分信息(如缺失航向或速度数据)时,现有深度强化学习(DRL)模型常出现误判,甚至产生违规操作。这种现象被研究者称为"有限环境知识困境",其本质在于瞬时感知数据难以支撑对复杂遭遇场景的准确评估。
受人类利用记忆机制在信息不全时仍能有效导航的启发,集美大学的研究团队在《Ocean Engineering》发表创新成果,提出记忆增强的深度强化学习(MDRL)框架。该研究通过构建记忆空间归档历史导航数据,结合门控循环单元(GRU)处理时序特征,使USV能在传感器受限条件下仍能生成COLREGs合规的避障策略。实验表明,相比传统DRL算法,新方法在波浪干扰环境中将避障成功率提升23%,且展现出优异的泛化能力。
关键技术方法包括:1) 建立包含USV运动状态和障碍物特征的记忆空间;2) 采用GRU网络处理变长时序数据,解决传统RNN的梯度消失问题;3) 设计兼顾COLREGs规则(如右让左、追越责任等)的复合奖励函数;4) 改进经验回放机制,优化时间序列样本的随机采样效率。所有实验均在模拟器和真实USV平台验证,环境参数设置参考了中国东海典型海况数据。
环境构建
研究团队首先建立了包含USV六自由度运动学模型、三类典型遭遇场景(对遇、交叉和追越)的仿真环境。特别引入船舶操纵性指数K、T参数表征动态约束,通过添加白噪声模拟传感器误差。COLREGs规则被量化为12项约束条件,如当两船航向夹角大于112.5°时启动"右让左"规则。
MDRL框架
核心创新是设计双层记忆架构:原始记忆空间按时间戳存储原始观测数据(如障碍物相对方位、DCPA/TCPA等),而GRU网络则提取时序特征形成短期记忆。网络采用Soft Actor-Critic(SAC)算法框架,在策略网络中加入64单元GRU层。独特的优先级经验回放机制将样本按时间相关性分组,确保训练时既保持序列完整性又避免过拟合。
仿真与实验
在模拟测试中,MDRL算法在能见度受限场景下的避障成功率较传统SAC提高17.8%,违规次数降低62%。真实USV实验中,当传感器仅能探测200米范围时,算法仍能提前35秒识别碰撞风险。特别值得注意的是,在4级海况下,系统对动态障碍物的轨迹预测误差控制在航向角±5°、速度±0.3m/s以内。
这项研究开创性地将人类记忆机制引入USV智能决策系统,其价值主要体现在三方面:技术上,GRU与SAC的融合架构为处理不完全观测问题提供新范式;应用上,算法在传感器性能受限时的鲁棒表现,显著降低了智能船舶的硬件成本门槛;规则层面,通过将COLREGs条款深度编码至奖励函数,为海事法规的数字化合规提供可推广的实施方案。论文最后指出,未来工作将聚焦记忆机制的长期优化,探索LSTM与注意力机制的协同效应,以进一步提升系统在复杂航道中的决策透明度。
生物通微信公众号
知名企业招聘