深度强化学习协同大邻域搜索的地球观测卫星大规模应急任务在线调度方法

【字体: 时间:2025年06月09日 来源:Expert Systems with Applications 7.5

编辑推荐:

  为解决地球观测卫星(EOS)大规模应急任务在线调度中搜索空间爆炸和动态环境适应难题,研究人员提出集成深度强化学习(DRL)与大邻域搜索(LNS)的IDRLNS算法。通过任务序列与资源选择双解码机制压缩搜索空间,设计三类问题特异性破坏-修复算子提升优化效率。实验表明,该算法较基线方法奖励提升7.76%,收敛速度更快,为动态遥感任务调度提供新范式。

  

随着搭载可见光、合成孔径雷达(SAR)、红外等多谱段遥感设备的地球观测卫星(EOS)数量激增,其在灾害风险管理、农业监测、国防等领域的应用日益广泛。然而,卫星资源有限性与用户需求爆发性增长之间的矛盾愈发尖锐,特别是当海量应急任务密集到达时,传统调度方法面临两大挑战:一是任务与卫星可见时间窗口(VTW)的动态匹配导致搜索空间指数级爆炸;二是高时效性要求迫使算法需在秒级内输出优质解。这种"多快好省"的调度需求,使得现有精确算法、启发式方法和单一强化学习技术均难以兼顾效率与质量。

针对这一难题,研究人员提出IDRLNS(集成深度强化学习与大邻域搜索)创新框架。该研究首先构建滚动优化机制,将动态在线调度分解为连续静态子问题;继而设计双阶段解码器,将任务-资源映射拆分为序列生成与资源分配两个子过程,有效降低DRL输出维度;最后开发三类基于卫星姿态机动、任务优先级和资源饱和度的破坏-修复算子,使LNS能针对性优化初始解。算法在真实轨道数据测试中,相比遗传算法(GA)、蚁群优化(ACO)等基线方法,不仅奖励值提升7.76%,还能在200次迭代内快速收敛。

关键技术方法包括:1)基于Transformer的时序编码增强DRL状态表征能力;2)设计任务序列评估网络与资源选择网络的双通道解码架构;3)开发考虑卫星电池容量、反作用轮转速等物理约束的LNS操作符;4)采用中国卫星遥感中心提供的12颗卫星轨道参数及500+应急任务数据集验证性能。

问题描述
研究将EOS调度建模为混合整数约束满足问题(MICSP),目标函数最大化任务总奖励,约束条件涵盖电池能耗、存储容量、姿态机动时间等。关键创新在于引入任务紧急度权重因子和卫星资源动态损耗系数,使模型更贴合应急场景特性。

算法设计
DRL部分采用Actor-Critic框架,Actor网络输出任务优先级分布,Critic网络评估状态价值。LNS阶段设计卫星专属的三种操作:基于VTW重叠度的区域破坏、考虑任务收益密度的贪婪修复、平衡负载的随机震荡操作。两者通过滚动时域窗口实现协同优化。

性能评估
在3组对比实验中,IDRLNS在任务完成率指标上较ACO提升19.2%,较PPO算法降低47.8%的决策延迟。特别在台风监测应急场景下,其调度方案使卫星资源利用率达到92.3%,远超GA的78.6%。

结论与讨论
该研究证实DRL与LNS的协同能有效解决EOS调度中的"维度灾难"问题:DRL快速生成次优解的特性弥补了LNS初始解依赖缺陷,而LNS的局部搜索能力则提升了DRL方案的物理可行性。方法论层面,双解码机制为其他组合优化问题提供普适性架构参考;应用层面,算法已部署于中国遥感卫星地面站,支持河南洪水等突发事件中6小时内完成200+应急任务调度。未来工作将探索星上边缘计算部署与多智能体协作机制。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号