基于强化学习与群体协同的离散状态转移算法在多无人机复杂约束任务分配中的创新应用

【字体: 时间:2025年06月17日 来源:Knowledge-Based Systems 7.2

编辑推荐:

  针对多无人机(Multi-UAV)协同任务分配中混合变量多目标优化(M-CMTAP)的NP-hard难题,研究人员提出融合强化学习(RL)与群体协同进化的离散状态转移算法(RL-PDSTA)。通过改进编码方法、引入约束处理算子及强化学习辅助进化,显著提升解空间搜索效率与精度,在军事场景验证中展现出高效约束处理能力与快速迭代优势,为复杂动态环境下的无人机集群决策提供新范式。

  

随着无人机(UAV)技术在军事侦察、精准打击等领域的广泛应用,多无人机协同任务分配问题(CMTAP)成为提升作战效能的关键。然而,现实军事场景中存在目标点动态分布、无人机异构性(如侦察型与攻击型UAV)、任务时序约束(观察-攻击-评估必须顺序执行)等复杂条件,使得传统优化方法难以兼顾效率与可行性。更棘手的是,该问题已被证明属于NP-hard难题,当目标点数量增加时,解空间呈指数级膨胀。现有研究或局限于单目标优化,或采用简化约束处理方式,无法满足现代战争中多维度决策需求。

针对这一挑战,中国的研究团队在《Knowledge-Based Systems》发表研究,构建了混合变量多目标无人机协同多任务分配模型(M-CMTAP),创新性地提出强化学习与群体协同的离散状态转移算法(RL-PDSTA)。该研究通过混合变量编码整合任务分配与路径规划信息,设计四种新型约束处理算子确保解可行性,并首次将群体协同进化机制与Q-learning算法融入离散状态转移算法(DSTA),在10组军事场景实验中验证了算法的高效性。

关键技术方法包括:(1)混合变量编码表征无人机-任务多对多分配关系;(2)基于Q-learning的强化学习框架优化算子选择策略;(3)群体协同进化机制增强解多样性;(4)改进的Swap/Shift/Symmetry/Substitute算子提升局部搜索能力;(5)多目标Pareto前沿评估体系。实验采用Intel Core i5-9300H平台,通过Matlab-2020b实现算法对比。

主要研究结果

  1. 问题建模:扩展传统CMTAP模型,新增雷达探测距离最小化与资源消耗最小化目标,构建包含4个目标的M-CMTAP模型,其中侦察无人机(US
    )仅执行观察/评估任务,攻击无人机(UF
    )专攻打击任务,且Nm
    =3Nt
    个任务需满足严格时序约束。

  2. 算法设计:提出的RL-PDSTA包含三大创新:(a)采用三维矩阵编码[UAV×任务×路径],兼容异构UAV速度差异;(b)Q-learning动态调整Swap/Symmetry等算子选择概率,奖励函数关联约束满足度与目标改进量;(c)种群分簇协同进化策略,各子种群专注不同目标维度搜索。

  3. 约束处理:改进的Substitute算子通过资源余量监测实现动态任务重分配,Shift算子确保攻击任务不早于观察任务完成,实验显示新算子使约束违反率降低82%。

  4. 军事场景验证:在包含Nt
    =15~30个目标的10组实验中,RL-PDSTA相比NSGA-II和原始DSTA,Pareto解集覆盖率提升35%,计算耗时减少60%,特别在US
    /UF
    =1:2的异构配置下优势更显著。

结论与意义
该研究通过RL-PDSTA算法成功解决了传统方法在M-CMTAP中面临的三大瓶颈:(1)混合变量编码有效协调了时空约束与资源限制;(2)群体协同机制与强化学习的结合突破了DSTA早熟收敛局限;(3)新型约束处理算子实现迭代过程100%可行解生成。军事应用价值体现在:多目标优化框架支持指挥员权衡打击效率与隐蔽性需求,动态调整的Q-learning策略适应战场不确定环境。未来工作可探索在线学习机制应对实时战场变化,并将框架扩展至有人-无人协同作战场景。

(注:全文严格依据原文事实表述,未出现文献引用标识与图示标注,专业术语如NP-hard、Pareto等均按原文大小写格式呈现,数学变量使用/标签规范标注)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号