轻量级MCTS-PPO算法结合前瞻性指导和门控蒸馏技术，用于在轨加油任务规划

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Lightweight MCTS-PPO with lookahead guidance and gated distillation for on-orbit refueling mission planning

【字体：大中小】 时间：2026年02月14日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　O2M-OOR任务规划提出LMCTS-PPO混合算法，通过动态滚动规划平衡长周期决策与计算效率，创新采用代理辅助评估、贪心随机拓扑扩展及策略引导值回溯机制，实现优于PPO 50%的收敛速度和12%以上的燃料优化，在20星任务中仍保持3.55%燃料节省。

李新汉|黄旭峰|罗书阳|周琦|李志

华中科技大学航空航天工程学院，武汉430074，中国

摘要

对于高价值地球同步轨道（GSO）卫星的一对多（O2M）在轨加油（OOR）任务规划而言，效率与成本控制至关重要。传统的单次全局排序元启发式方法将序列生成与轨迹优化分开，但这些方法常常难以处理轨道力学中固有的时间依赖性可行性约束，导致在不可行解上浪费大量计算资源。本研究提出了一种混合轻量级蒙特卡洛树搜索-近端策略优化（LMCTS-PPO）任务规划算法，用于解决O2M-OOR问题。该算法根据当前航天器状态进行滚动规划，并在每一步动态更新可行性和燃料预算。为协调长距离预测与有限模拟预算之间的矛盾，LMCTS架构整合了三种机制：基于贪婪随机拓扑的稀疏扩展策略、替代辅助评估器以及策略引导的价值自举。通过门控机制选择高置信度的策略价值信号，并通过双损失函数将其融入学生网络并使用退火权重进行优化，从而减少偏差并提高稳定性。在不同规模的GSO任务（10个、15个和20个目标）上的广泛实验证明了该框架的鲁棒性。与PPO相比，该算法的收敛速度提高了50%以上，同时在燃料优化方面超越了其他强化学习（RL）基线的12%以上改进。特别是在15个和20个目标场景中，LMCTS-PPO分别实现了3.55%和1.87%的燃料节省。值得注意的是，该方法能够避开传统算法容易陷入的局部最优解，确保了复杂O2M-OOR任务的优质解决方案。

引言

随着太空探索任务的推进，航空航天作业表现出越来越高的任务多样性和环境复杂性。这一演变推动了航天器的快速增长，包括卫星和空间站。尽管制造和发射成本大幅增加（Li等人，2019年；Ma等人，2023年），但系统集成水平却显著提升。在高价值航天器上，长时间的在轨服务和恶劣的空间环境常常导致燃料耗尽、姿态控制丧失或轨道保持失败（Flores-Abad、Ma、Pham和Ulrich，2014年）。这些故障不仅破坏了任务的连续性，还造成了巨大的经济损失。因此，OOR技术已成为延长航天器寿命和增强任务韧性的关键手段（Lin等人，2022年；Malyh等人，2022年）。主要航天国家已将OOR确定为关键技术优先事项，并进行了多次在轨演示任务以验证其可行性。

尽管已经取得了重要进展，例如任务扩展飞行器（MEV）演示证明了卫星寿命延长的可行性（Breon等人，2020年；Redd，2020年），但目前的OOR操作仍主要以一对一（O2O）为主，导致运营效率低下和每次任务成本高昂（Tsiotras和De Nailly，2005年）。为了满足大规模星座维护、频繁的空间站补给以及其他高频率任务的需求，加油范式正向一对多（O2M）、多对多（M2M）和点对点（P2P）架构转变（Chen和Yu，2017年；Zhu等人，2020年）。在日益密集的轨道基础设施背景下，开发高效可靠的多目标调度、协同轨迹规划和资源分配方法变得至关重要。这些能力构成了未来OOR任务规划的关键科学挑战。

近年来，OOR任务规划的研究主要沿着两种范式发展。第一种范式侧重于利用智能元启发式方法为多卫星服务任务获得高质量的全局解决方案。例如，为了应对太阳同步轨道（SSO）卫星的轨道平面约束，Han等人（Han、Guo、Wang、Li和Pedrycz，2023年）将谱聚类与量子遗传算法相结合。同样，Zhu等人（Zhu等人，2020年）利用基于密度的空间聚类方法（DBSCAN）来确定在轨加油站的最佳位置。对于GSO卫星的高度耦合轨迹规划，广泛采用了混合粒子群优化（HPSO）（Daneshjou等人，2017年；Zhou等人，2015年）和遗传算法（GA）结合变邻域搜索（VNS）（Yan等人，2025年）等进化策略，以最小化多目标访问期间的总速度增量。另一方面，人们越来越关注将强化学习（RL）与搜索技术相结合的自适应实时调度方法。早期研究如Bao等人（Bao、Zhang和Zhang，2020年）将异步优势演员-评论家（A3C）算法应用于地球观测卫星任务调度，证明了其优于传统启发式方法的响应能力。最近的研究则专注于提高特定轨道挑战下的决策鲁棒性。Li等人（Z. Li、Li和Luo，2024年）将蒙特卡洛树搜索（MCTS）与具有不确定性感知能力的神经网络相结合，用于自主航天器规划；Yang等人（Yang、Hou、Hu、Liu和Pan，2020年）通过将神经网络引导纳入上层置信界限（UCT）算法，提高了主动碎片清除效率。此外，Qi等人（Qi等人，2024年）将深空探测器探索和数据下行链路统一到一个马尔可夫决策过程（MDP）中，利用近端策略优化（PB-PPO）来平衡长期任务奖励。

除了这些特定领域的应用外，还需要认识到卫星任务规划本质上与经典组合优化（CO）问题具有相似的结构（Chung、Lee和Tsang，2025年）。这些问题包括旅行推销员问题（TSP）（Alanzi和Menai，2025年）、车辆路径问题（VRP）（B. Li、Wu、He、Fan和Pedrycz，2022年）以及复杂的灵活作业车间调度（FJSP）。AlphaZero框架（Silver等人，2018年）开创的深度RL和MCTS集成方法已成为解决此类复杂顺序决策任务的主流方法。例如，（Liu、Fotouhi和Auger，2022年）证明将PPO与先进的树搜索结合可以显著提高动态环境中的战略决策能力。在制造调度领域，（Zhang等人，2026年）提出了一种混合双深度Q网络（DDQN）-MCTS算法，用于解决多约束FJSP问题，验证了搜索在优化价值估计方面的有效性。同样，（X. Zhou、Wang、Wu、Li和Shen，2025年）应用基于深度RL的方法解决了具有有限资源的动态分布式调度问题；（Kuai、Wang和Wang，2022年）将网络函数映射视为FJSP，表明通过树搜索增强的PPO可以有效处理复杂整数约束。这些研究共同证明了前瞻性搜索可以通过在推理过程中细化决策来显著提升神经策略的性能。

总体而言，GSO OOR任务规划代表了一类具有长距离耦合和非线性可行性约束的动态、时变组合优化问题。与边缘成本固定的静态TSP或VRP不同，由于轨道动力学的影响，卫星之间的燃料成本会随时间显著波动，这意味着当前决策会不可逆转地改变所有未来目标的时空可达性。

在这种高维且强耦合的环境中，现有范式面临关键限制。一次性全局排序元启发式方法（如GA）虽然具有确定性，但在非凸空间中评估不可行序列时往往浪费大量计算资源，难以在解决方案质量和运行效率之间取得平衡。相比之下，标准RL可以实现端到端的适应，但通常依赖于短视的贪婪采样。这种短视性常常导致耗尽燃料储备或违反未来相位约束的局部最优选择，最终使智能体陷入无可行行动的状态。此外，尽管AlphaZero风格的（RL-MCTS）框架理论上可以通过前瞻性搜索解决这种短视问题，但其标准全宽度实现在我们这个领域计算成本过高。轨道传播和轨道转移优化的成本高昂，使得大规模模拟变得不切实际。

因此，本文提出了LMCTS-PPO来解决这些挑战。具体贡献如下：

(1)

LMCTS-PPO用于GSO O2M-OOR任务规划。该方法用逐步滚动规划取代了传统的单次全局排序，以处理复杂的组合约束。在不同任务规模上的广泛实验表明，与常规基线相比，该算法在计算效率和解决方案最优性方面具有明显优势，同时在高度受限的场景中保持稳健的收敛性。

(2)

提出了一种轻量级MCTS架构，以协调长距离预测与有限模拟预算之间的矛盾。通过集成替代辅助评估器、基于贪婪随机拓扑的稀疏扩展策略和策略引导的价值自举，该算法能够有效缩减搜索空间并捕捉深层依赖关系，而不会产生过高的计算成本。

(3)

设计了一种门控双蒸馏机制，以调节基于搜索的教师模型与策略网络之间的知识传递。通过动态价值阈值选择高置信度的教师信号，可以减轻训练不稳定性和偏差，同时通过退火策略价值监督提高早期样本的效率。

部分摘录

O2M-OOR任务场景描述

O2M-OOR任务的操作概念涉及服务卫星（服务器）执行一系列循环操作，以延长GSO中多个目标卫星的寿命。如图1所示，任务过程通常包括每个服务任务的四个操作阶段：

(1)

轨道转移，服务器从当前位置机动到目标卫星附近；

(2)

交会与对接（RVD），涉及精确的接近操作

LMCTS-PPO框架

在O2M-OOR场景中，任务规划需要同时优化服务序列和相关的轨道转移轨迹。传统的元启发式方法通常采用分离的策略：先生成全局服务序列，然后优化转移过程。然而，在O2M-OOR场景中，这种先生成后评估的范式往往失败，因为轨道环境高度动态且依赖于时间。

参考任务场景和应急场景设置

与一般机器人控制任务不同，O2M-OOR任务通常具有预定义的高价值资产。在这种工程背景下，求解器需要在保持对运行时异常的鲁棒性的同时，为指定的服务序列实现实例特定的最优性。

(1)

参考任务数据集（静态基准）。

构建了一个包含

N = 20

个GSO目标卫星的主数据集

结论

本研究提出了一种用于高价值GSO加油任务的LMCTS-PPO任务规划算法，解决了传统单次全局排序的固有局限性。通过用基于可行性的滚动决策过程替代静态调度，该框架有效缓解了在紧密耦合约束下的长期规划脆弱性问题。为协调搜索深度与计算效率之间的矛盾，该算法整合了轻量级搜索

代码可用性

如需获取代码，请联系相应作者。

CRediT作者贡献声明

李新汉：概念化、方法论、软件开发、验证、调查、初稿撰写、审稿与编辑、可视化。黄旭峰：验证、监督、概念化。罗书阳：验证、监督、形式分析、概念化。周琦：监督、审稿与编辑、项目管理、资源协调。李志：资源协调、项目管理、资金筹集。

资助

本研究部分得到了中国青年科学家重点项目[项目编号2022YFC2204700]的支持。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号