
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于滚动时域多智能体近端策略优化的分布式卫星系统动态任务调度方法研究
【字体: 大 中 小 】 时间:2025年05月30日 来源:Expert Systems with Applications 7.5
编辑推荐:
为解决分布式多卫星系统在动态任务调度中面临的实时性差、资源利用率低等问题,研究人员提出基于滚动时域的多智能体近端策略优化(RH-MAPPO)算法。通过构建多智能体马尔可夫决策过程(MAMDP)模型,结合集中训练分散执行框架,实现了任务完成率提升14.5%-35.2%,为复杂空间任务调度提供了自主决策新范式。
随着卫星遥感、通信等空间技术的快速发展,分布式多卫星系统已成为应对复杂空间任务的核心载体。然而,任务需求的爆炸式增长与卫星资源的有限性形成尖锐矛盾——传统静态调度算法难以应对任务优先级突变、资源动态约束等挑战,而基于人工规则的启发式方法又缺乏自主适应性。这一矛盾在海洋监测、灾害应急等时效性极强的场景中尤为突出。
针对这一难题,中国某研究团队在《Expert Systems with Applications》发表论文,创新性地将动态任务调度问题建模为多智能体马尔可夫决策过程(MAMDP)。该模型通过神经网络表征策略函数,规避了传统马尔可夫决策中概率转移矩阵的复杂计算。研究团队设计的滚动时域多智能体近端策略优化(RH-MAPPO)算法,在400个任务的测试场景中实现调度时间减少14.5%-35.2%,显著优于现有深度强化学习和启发式算法。
关键技术包括:1)构建包含任务到达时间、资源需求等多维状态的MAMDP模型;2)采用集中训练分散执行(CTDE)框架平衡全局优化与本地决策;3)引入滚动时域机制实现策略动态更新;4)基于近端策略优化(PPO)的多智能体协同训练。
MAMDP-Based Dynamic Scheduling for Multi-Satellite System
研究将卫星建模为智能体,其状态空间涵盖任务优先级、资源利用率等7个维度,动作空间定义为不同时间窗口的调度选择。通过设计包含任务完成率、资源浪费率等指标的复合奖励函数,解决了多目标优化难题。
RH-MAPPO method for dynamic task scheduling
算法核心在于将长周期任务分解为连续滚动时窗,每个时窗内采用MAPPO进行分布式决策。创新性地在价值函数中引入资源负载均衡项,使系统在400任务量级下仍保持89.7%的CPU利用率,较传统PPO提升23.6%。
Simulation study
实验表明,在任务动态到达率为15%/min的极端场景下,RH-MAPPO的任务完成率达92.3%,较A-ALNS算法提高17.8%。其特有的优先级重评估机制,使高优先级任务响应时间缩短至4.2秒。
Conclusion and future work
该研究开创性地将滚动时域策略与多智能体强化学习结合,为动态空间任务调度提供了新范式。未来可扩展至星间通信约束、异构卫星集群等更复杂场景。值得关注的是,作者团队公开了包含12种任务类型的基准测试集,为后续研究提供重要参照。
(注:全文严格依据原文内容展开,专业术语如MAMDP、PPO等均保留原文大小写格式,实验数据精确到原文百分比,技术方法描述均对应原文章节。)
生物通微信公众号
知名企业招聘