《Acta Astronautica》:Autonomous orbital maintenance using a supervised-learning-based target point approach
编辑推荐:
为解决NRHO(近直线晕轨道)长期维持中传统方法依赖地面干预、计算复杂的问题,研究人员开展了基于监督学习与TPA(目标点方法)的自主站控策略研究。该研究通过随机优化生成数据集,训练了轻量级MLP(多层感知器)分类器与回归器,实现了对初始状态偏差的可行性判断与最优站控参数的快速预测。仿真结果表明,该策略能有效将年速度增量控制在7.8–11.0 m/s范围内,模型尺寸仅约3.5 MB,适于星载部署,为深空任务自主导航提供了高效可靠的解决方案。
在深空探测领域,航天器在特殊轨道上的长期精确维持是任务成功的关键。近直线晕轨道(NRHO)作为地月空间中的一类周期性轨道,因其独特的动力学特性(如接近月球、与地球几乎连续的通信链路)成为月球轨道平台网关(LOP-G)等任务的理想候选轨道。然而,NRHO具有内在的不稳定性,微小的轨道偏差会随时间呈指数增长,导致航天器快速偏离标称轨道。传统的轨道维持(站控)策略严重依赖地面测控系统进行频繁的轨道确定(OD)和机动规划,这不仅引入了通信延迟,也增加了任务运营成本和风险。因此,发展一种能够在线快速评估轨道状态并自主生成最优维持策略的智能方法,对于实现航天器的长期自主运行至关重要。
为了应对这一挑战,研究人员在《Acta Astronautica》上发表论文,提出了一种融合监督学习与目标点方法(TPA)的自主NRHO站控框架。该研究的核心思想是将复杂的站控参数优化问题转化为数据驱动的学习任务,通过训练轻量级神经网络模型,使航天器能够根据实时轨道偏差自主决策。研究首先通过大规模的随机优化生成了包含10万个初始状态偏差及其对应最优TPA站控参数的数据集。基于此数据集,训练了一个多层感知器(MLP)二元分类器,用于快速判断给定初始偏差下站控任务的可行性;同时训练了三个MLP回归器,分别预测三个关键的TPA优化参数(机动执行时间偏移δtEX、目标点时间偏移δtTP和位置残差权重R)。研究人员采用了Sobol序列进行高维空间均匀采样,确保了训练数据的代表性;使用AdamW优化器和One-Cycle学习率调度策略进行模型训练,以提升收敛速度和泛化能力;并引入了早停法(early stopping)和dropout等技术防止过拟合。
5.1. 数据集生成
研究选取了一个具有4:1会合共振的L2NRHO作为测试案例。通过Sobol序列在六维状态空间(位置偏差±100 km,速度偏差±2 m/s)内生成了10万个初始偏差样本。对每个样本,嵌入蒙特卡洛(MC)模拟(1000次运行)以考虑轨道确定(OD)误差和执行(EX)误差的影响,并采用简单遗传算法(GA)进行随机优化,以最小化包含控制努力和终端状态残差的代价函数。优化结果表明,约49.6%的样本能够成功收敛到可行的站控解,其对应的年速度增量(Δv)可达200 cm/s,且优化参数呈现出特定的统计分布,例如机动多在站控单元初期执行(δtEX< 0.25),目标点多设于规划末期(δtTP> 0.80),权重R集中在0.55–0.80之间,而权重S则高度集中于零附近。这为后续的监督学习提供了高质量且物理意义明确的训练数据。
5.2. 基于MLP的分类器训练与测试
利用生成的数据集,研究训练了一个MLP二元分类器来区分可行与不可行的站控初始状态。该MLP架构包含三个隐藏层(每层512个神经元),采用GELU激活函数和dropout正则化。在独立测试集上的评估显示,分类器达到了约0.95的精确度、召回率和F1分数,曲线下面积(AUC)高达0.993,混淆矩阵表明其能有效识别绝大多数情况。进一步分析表明,当初始偏差的边界设定在位置50 km、速度1 m/s时,站控成功率最高(约99.75%),而当边界扩大至位置100 km、速度2 m/s时,成功率降至约49.28%,揭示了初始偏差大小对站控可行性的显著影响。
5.3. 基于MLP的回归器训练与分析
针对可行的站控样本,研究训练了三个独立的MLP回归器来预测最优的TPA参数δtEX, δtTP和R。训练前对数据进行了“清洗”,剔除了Δv < 1.5 cm/s的“近无控”样本,以消除参数弱辨识性对回归模型训练的干扰。训练后的回归器在测试集上表现优异,对于δtEX, δtTP和R的预测,确定系数(R2)分别达到0.929、0.914和0.981,显示出强大的预测能力。然而,对于参数S的预测始终不理想(R2 < 0.40),表明其最优值与初始状态偏差的相关性较弱,难以通过监督学习有效建模。
5.4. 自主在轨站控仿真
最后,研究进行了大规模的闭环自主站控仿真,模拟了长达一年(28个站控单元)的任务周期。仿真使用训练好的分类器和回归器,对10万个新的初始偏差样本进行逐单元的“分类-预测-轨道维持”循环。结果表明,在最初的几个站控单元,速度残差和机动量均呈现较大分散性,需要较大的控制努力来快速抑制初始误差。大约从第6到第10个单元开始,系统逐渐进入稳态,速度残差和机动量分布迅速收敛至狭窄且对初始偏差不敏感的区间。累积一年的总速度增量集中在7.8–11.0 m/s的范围内,与作者之前采用固定TPA参数的研究结果(约9.046 m/s)高度吻合,验证了该策略的有效性。主成分分析(PCA)显示,年累积成本在初始偏差的主成分空间中分布均匀,表明长期的站控性能对初始条件的依赖性较弱,策略具有鲁棒性。
该研究成功论证了基于监督学习的TPA站控策略的可行性。所训练的MLP模型总大小约3.5 MB,计算负载低,非常适合在计算资源有限的航天器上实时运行。该方法将复杂的优化问题转化为高效的前向推理,显著降低了了对地面支持的依赖,为实现航天器长期自主导航与轨道维持迈出了关键一步。未来的工作将侧重于通过软件在环(SIL)和硬件在环(HIL)测试,在更接近真实的飞行环境下验证该框架的实时性能和集成准备情况。