通过公平引导的强化学习（MARL）激励低地球轨道（LEO）卫星星座中的合作机制以实现数据移交策略

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Internet Technology》：Incentivizing Cooperation for Handover Strategies in LEO Constellations via Fairness-guided MARL

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Internet Technology

编辑推荐：

　　分布式公平引导交接策略DHO-F基于多目标马尔可夫决策过程优化，融合吞吐量与公平性平衡机制，兼容3GPP标准实现高效动态交接，实验显示其社会 welfare函数指标优于中心化算法3.48%且在中高负载场景表现最优。

摘要

在高度动态的巨型低地球轨道（MELO）卫星星座（MLSCs）中，切换（Handover，HO）是移动性管理的关键技术之一。由于随机接入（RA）模式下缺乏信道预留，以及集中式切换调度所带来的高昂开销，大量连接（例如物联网节点）之间的激烈竞争导致了服务连续性的显著下降。为了解决上述问题，我们提出了一种基于分布式公平性的切换策略（DHO-F），该策略能够动态选择最佳的切换目标和子信道。具体而言，DHO-F的优化问题基于最大-最小公平性原则进行构建，并进一步被建模为一个多目标马尔可夫决策过程（MOMDP），其中公平性通过社会福利函数（SWF）来表达。为了解决MOMDP问题，推导出了最大化公平性的策略梯度的解析形式。随后，利用具有分布式合作机制的多智能体近端策略优化（MAPPO）来实现长期最优。这种基于公平性的MAPPO（FG-MAPPO）采用了一种混合网络架构，同时考虑了最大化单个链路速率和用户设备（UEs）之间的公平性。它通过以吞吐量为导向（TO）的网络和以公平性为导向（FO）的网络之间的协作，协调了这两个相互冲突的目标。此外，还实现了一个分布式训练框架，以提高FG-MAPPO的样本效率和数据多样性。FG-MAPPO与3GPP的条件切换（CHO）框架完全兼容，证明了其在现实世界中的可行性。广泛的评估表明，与集中式算法相比，DHO-F表现出更优越的性能，在SWF指标上平均提升了3.48%。此外，在中等到高负载场景下，DHO-F在平衡公平性和速率最大化方面建立了新的最佳实践（SOTA）性能，优于IDQN、ISAC和MAPPO。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号