基于多任务多智能体深度强化学习的自主水面船队多目标环境清理策略

【字体: 时间:2025年10月22日 来源:Advanced Intelligent Systems 6.1

编辑推荐:

  本文提出了一种创新的多任务多智能体深度强化学习(MTMADRL)框架,用于解决自主水面船队(ASV)在动态水域环境中的塑料垃圾清理问题。该研究将任务解耦为探索(定位垃圾)和清理(收集垃圾)两个阶段,通过多目标学习方法构建帕累托前沿(Pareto front),实现了探索与清理效率的最佳平衡。该方法在马拉加港(Malaga Port)和阿拉米略湖(Alamillo Lake)两种不同规模水域环境中均表现出优越的适应性,为海洋环境保护提供了可扩展的智能决策方案。

  
研究背景与意义
塑料污染对水生生态系统构成严重威胁,其中塑料包装和小型物品占海洋垃圾的65%。港口作为塑料污染的重要来源,亟需高效清理方案。自主水面船队(ASV)凭借其自主导航和传感器探测能力,为大规模水域环境监测和垃圾清理提供了可行方案。然而,垃圾位置的初始未知性、动态分布特性以及多船协同作业的复杂性,使得清理任务面临巨大挑战。
研究方法创新
本研究提出了一种多任务多智能体深度强化学习(MTMADRL)框架,将清理任务解耦为探索和清理两个阶段。通过引入过渡变量ν(探索动作选择概率),实现了从探索到清理的平滑过渡。采用具有双头结构的深度Q网络(MDQN),分别估计探索任务和清理任务的Q值函数。所有ASV共享同一策略网络,通过以自我为中心的状态表示确保算法的可扩展性。
关键技术突破
  1. 1.
    状态表示设计:采用三通道图像输入,包括垃圾分布模型、智能体轨迹历史和其他智能体位置信息,有效编码环境动态和协同关系。
  2. 2.
    奖励函数设计:探索奖励包含访问奖励、闲置惩罚和冗余惩罚,清理奖励则融合垃圾收集奖励、距离奖励、模型更新奖励和时间惩罚,形成密集奖励信号。
  3. 3.
    帕累托前沿构建:通过随机ν采样策略,动态探索目标空间,获得一系列帕累托最优解,为决策者提供多种任务权衡方案。
实验验证与分析
在马拉加港(705个可导航节点)和阿拉米略湖(563个可导航节点)的对比实验中,该方法展现出卓越的环境适应性。结果表明:
  • 大规模水域需要充分的探索阶段,而小规模水域仅需最小化探索即可实现高效清理
  • 与分解加权和策略(DWS)相比,本方法获得的帕累托前沿具有更高的超体积(Hypervolume)
  • 在马拉加港环境中,探索时间减少50%仅导致地图访问率下降3%,但垃圾清理率提升30.53%
  • 算法具有良好的可扩展性,在2-20艘ASV的舰队规模下均能保持稳定性能
应用前景与展望
该研究为水上自主系统的环境监测任务提供了创新解决方案。未来研究方向包括:开发更高效的帕累托前沿计算方法、引入任务时长作为第三优化目标、研究基于分层强化学习的自适应策略调整机制等。这些进展将进一步提升智能清理系统在复杂动态环境中的实用性和可靠性。
技术细节补充
  1. 1.
    环境建模:将水域地图表示为八连通图G=(V,E),通过导航矩阵M[i,j]∈{0,1}标识可通行区域
  2. 2.
    垃圾动态:采用风场驱动和随机扰动的复合模型,模拟垃圾的连续运动特性
  3. 3.
    协同避障:结合动作屏蔽和共识算法,确保多船作业的安全性
  4. 4.
    网络架构:采用带优先级经验回放的双重深度Q网络(Rainbow DQN),包含价值函数和优势函数分解的竞争架构
通过系统性的方法设计和严谨的实验验证,本研究为智能环境清理领域建立了新的技术标准,为应对海洋塑料污染挑战提供了切实可行的智能化解决方案。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号