通过公平引导的强化学习(MARL)激励低地球轨道(LEO)卫星星座中的合作机制以实现数据移交策略

《ACM Transactions on Internet Technology》:Incentivizing Cooperation for Handover Strategies in LEO Constellations via Fairness-guided MARL

【字体: 时间:2025年11月08日 来源:ACM Transactions on Internet Technology

编辑推荐:

  分布式公平引导交接策略DHO-F基于多目标马尔可夫决策过程优化,融合吞吐量与公平性平衡机制,兼容3GPP标准实现高效动态交接,实验显示其社会 welfare函数指标优于中心化算法3.48%且在中高负载场景表现最优。

  

摘要

在高度动态的巨型低地球轨道(MELO)卫星星座(MLSCs)中,切换(Handover,HO)是移动性管理的关键技术之一。由于随机接入(RA)模式下缺乏信道预留,以及集中式切换调度所带来的高昂开销,大量连接(例如物联网节点)之间的激烈竞争导致了服务连续性的显著下降。为了解决上述问题,我们提出了一种基于分布式公平性的切换策略(DHO-F),该策略能够动态选择最佳的切换目标和子信道。具体而言,DHO-F的优化问题基于最大-最小公平性原则进行构建,并进一步被建模为一个多目标马尔可夫决策过程(MOMDP),其中公平性通过社会福利函数(SWF)来表达。为了解决MOMDP问题,推导出了最大化公平性的策略梯度的解析形式。随后,利用具有分布式合作机制的多智能体近端策略优化(MAPPO)来实现长期最优。这种基于公平性的MAPPO(FG-MAPPO)采用了一种混合网络架构,同时考虑了最大化单个链路速率和用户设备(UEs)之间的公平性。它通过以吞吐量为导向(TO)的网络和以公平性为导向(FO)的网络之间的协作,协调了这两个相互冲突的目标。此外,还实现了一个分布式训练框架,以提高FG-MAPPO的样本效率和数据多样性。FG-MAPPO与3GPP的条件切换(CHO)框架完全兼容,证明了其在现实世界中的可行性。广泛的评估表明,与集中式算法相比,DHO-F表现出更优越的性能,在SWF指标上平均提升了3.48%。此外,在中等到高负载场景下,DHO-F在平衡公平性和速率最大化方面建立了新的最佳实践(SOTA)性能,优于IDQN、ISAC和MAPPO。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号