
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于元强化学习的智能船舶避碰决策模型构建与高风险场景优化研究
【字体: 大 中 小 】 时间:2025年07月03日 来源:Ocean Engineering 4.6
编辑推荐:
为解决船舶在复杂航行环境中避碰策略适应性不足的问题,Xinyu Jia团队创新性地提出基于元强化学习(Meta-RL)的SACMRL模型。该研究通过双层循环架构(内环策略优化/外环元学习)和TSHR高风险场景采样方法,结合CVaR风险目标函数,显著提升避碰策略的适应性与安全性。实验证实其在多船狭水道等高危场景中优于传统方法,为智能航运安全提供新范式。
随着人工智能和物联网技术的快速发展,智能船舶已成为现代航运业的必然趋势。然而,在真实复杂的海上环境中,船舶如何实现高效、安全的自主避碰仍是亟待解决的核心难题。传统基于深度强化学习(DRL)的方法存在两大痛点:面对新环境需从头学习导致效率低下,以及在高风险多船相遇场景中避碰策略失效可能引发严重事故。这些问题严重制约了智能船舶技术的实际应用。
针对上述挑战,北京的研究团队在《Ocean Engineering》发表了一项突破性研究。该工作首次将元强化学习(Meta-Reinforcement Learning, Meta-RL)框架引入船舶避碰领域,构建了名为SACMRL的双层学习模型。其创新之处在于:内环通过船舶代理(vessel agents)与环境交互积累避碰经验,外环则跨场景训练元策略,使系统能快速适应新环境。研究还特别设计了TSHR(Task Sampling for High-Risk scenarios)方法强化高危场景训练,并采用金融领域常用的条件风险价值(Conditional Value at Risk, CVaR)作为目标函数,实现对碰撞风险的精准量化。
关键技术方法包括:1)基于ROS-Gazebo的USVsim高精度船舶仿真平台;2)结合长短期记忆网络(LSTM)的双层循环模型架构;3)交叉熵法优化任务采样;4)CVaR风险量化指标;5)策略梯度法动态调整避碰决策。实验在模拟狭水道多船相遇场景中进行,包含静态障碍物和动态船舶的复杂交互。
【Model architecture】部分显示,SACMRL模型通过内环的在线策略优化和外环的元策略更新,使船舶代理在训练中同步学习通用避碰规则和场景特异性策略。LSTM模块有效处理连续决策中的时序依赖问题。
【Experimental environment】验证表明,在包含3艘船舶(R/G/W)同时穿越障碍密布的狭水道场景中,SACMRL的避碰成功率较传统DQN方法提升37.2%,路径规划效率提高28.5%。特别在船距小于3倍船长的高危场景下,碰撞率下降至基准值的1/5。
【Conclusion】强调该研究的双重价值:理论上开创了Meta-RL在船舶避碰领域的新应用范式;实践中提出的CVaR风险评估框架和TSHR训练策略,为智能航运系统提供了可解释、可扩展的安全保障方案。作者指出,未来可通过纳入更多真实航行数据(如AIS轨迹)进一步提升模型泛化能力。
这项研究的重要意义在于:首次实现船舶避碰策略的"学会学习"能力,使智能船舶能像经验丰富的船长一样快速应对未知场景;建立的风险量化体系为自动驾驶船舶的安全认证提供理论依据;其方法论可延伸至无人机、自动驾驶汽车等动态避障领域,推动智能运输系统的协同发展。团队特别致谢国家自然科学基金(52172327)和北京并行科技公司提供的算力支持。
生物通微信公众号
知名企业招聘