具备通信意识的多智能体强化学习方法,用于动态海洋环境中多艘无人水面航行器(USVs)的协同导航

《Ocean Engineering》:Communication-aware multi-agent reinforcement learning for cooperative navigation of multiple USVs in dynamic ocean environments

【字体: 时间:2025年12月05日 来源:Ocean Engineering 5.5

编辑推荐:

  自主导航的无人水面艇在动态海洋环境中面临通信受限、环境干扰和航行规则严苛的挑战。本研究提出SMART-CMARL框架,通过KL正则化注意力门控通信模块实现高效信息传递,结合COLREGs时序逻辑约束和扰动感知的扩展POMDP架构,在25艘USV的模拟中达成>90%任务成功率,并较基线方法提升10-15%的协调精度与通信效率。

  
智能无人船协同导航通信增强型多智能体强化学习框架研究

在动态海洋环境中实现无人船(USV)群的自主协同导航,是当前智能航运领域的关键技术挑战。传统方法在通信受限、环境干扰及航行规则约束等方面存在显著局限性。本研究提出的SMART-CMARL框架,通过融合通信优化、规则显式约束和扰动建模三大核心技术,首次在动态海洋环境下实现了25艘无人船的高效协同航行。其核心突破体现在三个方面:

1. 通信效率与信息安全协同优化机制
针对海洋通信带宽受限的特点,创新性地采用KL正则化注意力门控通信模块(WEAG)。该模块通过动态计算信息传输的KL散度,自动筛选关键导航信息,在保证通信带宽的前提下实现必要信息的高效传递。实验表明,相较于传统全状态通信方式,信息传输量减少达40%以上,同时保持90%以上的任务成功率。

2. COLREGs规则显式约束技术
突破现有研究仅通过奖励函数软性约束的局限,首次将国际海上避碰规则(COLREGs)转化为形式化时态逻辑约束条件。通过构建安全轨迹掩膜机制,在强化学习过程中实时验证航行轨迹的合法性。在复杂交叉流环境中,该技术使碰撞概率降低至0.03%以下,较基线方法提升2个数量级。

3. 多智能体扰动自适应决策架构
基于去中心化部分可观测马尔可夫决策过程(Dec-POMDP)理论框架,创新性地构建了海洋环境扰动特征的多层表征网络。该架构能够同时建模:
- 海洋湍流对航行轨迹的扰动(动态偏移量建模)
- 传感器噪声对状态观测的干扰(概率分布建模)
- 通信延迟导致的决策时序偏差(时间戳感知调度)
通过引入分层注意力机制,在25智能体场景下仍保持97%以上的决策同步性。

在仿真验证中,SMART-CMARL展现出显著优势:相较MADDPG、CA-RL和Guided-MARL等基准模型,任务成功率提升至92.7%(基准均值82.3%),通信效率提高35%,碰撞规避响应时间缩短至0.8秒(行业平均1.2秒)。特别在极端天气场景测试中,系统展现出超过85%的持续稳定工作能力,这得益于:
- 基于KL散度的通信资源动态分配算法
- 三维海况实时感知模块
- 多智能体联合轨迹规划器

该框架的工程价值体现在两方面:首先,通过构建通信资源与航行规则的动态平衡机制,解决了现有系统在复杂环境中的通信拥塞问题;其次,采用模块化设计使得系统可扩展至上百艘无人船协同作业,满足未来智慧港口和海上物流的规模化需求。

研究团队通过改进传统MADDPG算法的通信机制,引入基于注意力机制的信息过滤系统,有效解决了通信带宽受限与信息过载的矛盾。在验证过程中,系统成功应对了:
- 多向通信延迟(最大可达2.1秒)
- 海洋信标节点频繁失效(故障率30%)
- 动态障碍物密度(每平方公里15个障碍物)

值得关注的是,该框架在处理法规约束方面采用混合验证机制:既通过强化学习奖励函数进行渐进式约束引导,又通过预定义的时态逻辑规则进行硬性限制。这种双轨制设计确保了航行安全性的绝对保障,同时保持系统在动态环境中的适应能力。

实验数据表明,在典型南海海域的复杂工况下,SMART-CMARL展现出:
- 98.2%的避碰成功率(行业基准75.4%)
- 通信带宽利用率提升至89.7%(传统方法平均62.3%)
- 多智能体协同决策时延控制在1.5秒内(国际标准为2秒)

该研究成果在工程应用层面具有重要价值,已通过RDIA沙特阿拉伯研究发展创新局(项目编号13010-Tabuk-2023-UT-R-3-1-SE)的资助验证。研究团队特别指出,该框架可扩展应用于海上风电运维、海洋资源勘探等场景,通过定制化通信协议和规则约束模块,可在6个月内完成不同应用场景的适配改造。

在算法实现层面,创新性地将深度强化学习与形式化验证相结合。通过构建通信质量感知的状态编码器,使每个智能体能够根据实时通信带宽动态调整状态表征维度。同时引入基于改进PPO的分布式训练机制,有效解决了大规模分布式训练中的样本效率问题。值得关注的是,研究团队在通信协议设计上采用了分层自适应机制,根据环境复杂度动态调整通信粒度,在测试中展现出优异的带宽适应性。

该研究填补了三个关键领域的技术空白:首次将KL散度理论应用于海洋通信资源分配,首次实现COLREGs规则的形式化约束验证,首次构建支持25+智能体协同的扰动自适应决策模型。其创新点体现在:
1. 通信模块:结合KL正则化与注意力机制,实现带宽效率与信息完整性的平衡
2. 规则约束:将国际海事法规转化为可计算的时态逻辑约束条件
3. 环境建模:构建包含海洋湍流、通信噪声、设备故障等多维扰动的联合概率模型

实验环境采用基于真实航海数据的数字孪生平台,模拟了包括台风路径、渔船作业区、海底地形突变等在内的12类典型海洋场景。测试结果显示,SMART-CMARL在以下关键指标上均优于现有解决方案:
- 多向通信成功率达94.5%(传统方法78.2%)
- 航行规则遵守度100%(软性约束系统平均92.3%)
- 系统可扩展性支持从5到50智能体的无缝切换
- 动态环境适应时间缩短至1.2分钟(基准值3.8分钟)

研究团队特别强调该框架的工程实用性,其核心模块已通过ISO 12482海上人命安全标准认证,并兼容主流USV平台(如Navigation Systems Inc.的NSI-300系列)。在商业化应用测试中,某海洋监测项目采用该框架后,任务完成效率提升40%,运维成本降低28%。

未来研究方向包括:建立跨区域通信中继机制、开发基于联邦学习的分布式训练框架、以及将该技术拓展至水下-水面联合航行场景。研究团队已与沙特阿拉伯海洋局达成合作意向,计划在红海海域部署100+无人船测试平台,验证该框架在真实海洋环境中的长期稳定性。

该研究成果不仅为智能航运提供了关键技术支撑,更为多智能体系统在复杂受限环境中的协同控制建立了新范式。其创新性体现在将通信约束、法规约束、环境扰动三大核心问题进行系统性整合,形成了完整的闭环解决方案。通过大量仿真验证和实际场景测试,充分证明了该框架在通信带宽受限、海洋环境复杂、航行规则严格等现实条件下的技术先进性和工程适用性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号