基于集成强化学习的无人机编队协同控制算法研究

【字体: 时间:2025年07月20日 来源:Neurocomputing 5.5

编辑推荐:

  为解决多无人机编队控制中传统算法依赖环境先验知识、单智能体强化学习适应性不足的问题,研究人员基于MADDPG和DDPG框架,提出融合课程强化学习与集成强化学习的协同控制方法。通过分阶段训练策略解决多智能体算法收敛难题,在推理阶段切换控制策略提升定位精度,SITL仿真与实机验证表明该方法显著提高编队稳定性和控制精度,为复杂动态环境下的集群智能控制提供新思路。

  

随着军事和民用任务复杂度的提升,单无人机系统已难以满足需求,多无人机协同编队成为重要发展方向。在灾害救援中,编队可快速提供区域测绘和物资投送;军事领域则能实现侦察-打击一体化作业。然而传统编队控制方法如领航-跟随法、虚拟结构法等均需环境先验知识,而现有强化学习研究多聚焦单智能体算法,多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)在无人机编队的应用仍存空白。

针对这一挑战,河海大学数学学院的Kaifeng Wu等研究人员在《Neurocomputing》发表研究,创新性地将课程强化学习与集成强化学习相结合。团队基于多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient, MADDPG)和深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法框架,通过三阶段技术路线实现突破:首先构建包含位置偏差、速度向量的状态空间和二维连续动作空间;其次采用课程学习将编队任务分解为渐进阶段,设计分层奖励函数解决MADDPG训练不稳定的问题;最后在推理阶段引入集成策略,当无人机接近目标点时切换至DDPG算法并施加最大速度约束。

任务描述
研究设定三架无人机从不同起点出发,在二维平面完成指定队形构建。通过Dronekit平台建立软件在环(Software in the Loop, SITL)仿真环境,重点解决多智能体交互导致的策略震荡问题。

状态空间与动作空间
状态空间包含无人机当前坐标与目标点的差值Δx、Δy,以及速度向量vx、vy;动作空间为二维连续空间,直接控制无人机的运动加速度。

实验验证
通过消融实验证实:课程学习使MADDPG训练成功率提升47%,集成策略将最终定位误差降低至0.3米内。实飞试验中,无人机在动态环境下成功实现三角形编队,验证了算法在真实场景的鲁棒性。

该研究的创新性体现在三方面:一是首次将课程学习引入多无人机控制,通过"分阶段教学"解决MARL训练难题;二是提出MADDPG-DDPG混合推理架构,兼顾避障效率与定位精度;三是构建完整的SITL验证体系,为算法落地提供工程范式。研究成果不仅为智能集群控制提供新方法,其分层训练思想对复杂系统的强化学习应用具有普适参考价值。正如论文所述,这种"训练阶段分而治之,执行阶段动态切换"的策略,为处理多目标优化问题开辟了新路径。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号