通过公平引导的强化学习(MARL)激励低地球轨道(LEO)卫星星座中的合作机制以实现数据移交策略
《ACM Transactions on Internet Technology》:Incentivizing Cooperation for Handover Strategies in LEO Constellations via Fairness-guided MARL
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Internet Technology
编辑推荐:
分布式公平引导交接策略DHO-F基于多目标马尔可夫决策过程优化,融合吞吐量与公平性平衡机制,兼容3GPP标准实现高效动态交接,实验显示其社会 welfare函数指标优于中心化算法3.48%且在中高负载场景表现最优。
摘要
在高度动态的巨型低地球轨道(MELO)卫星星座(MLSCs)中,切换(Handover,HO)是移动性管理的关键技术之一。由于随机接入(RA)模式下缺乏信道预留,以及集中式切换调度所带来的高昂开销,大量连接(例如物联网节点)之间的激烈竞争导致了服务连续性的显著下降。为了解决上述问题,我们提出了一种基于分布式公平性的切换策略(DHO-F),该策略能够动态选择最佳的切换目标和子信道。具体而言,DHO-F的优化问题基于最大-最小公平性原则进行构建,并进一步被建模为一个多目标马尔可夫决策过程(MOMDP),其中公平性通过社会福利函数(SWF)来表达。为了解决MOMDP问题,推导出了最大化公平性的策略梯度的解析形式。随后,利用具有分布式合作机制的多智能体近端策略优化(MAPPO)来实现长期最优。这种基于公平性的MAPPO(FG-MAPPO)采用了一种混合网络架构,同时考虑了最大化单个链路速率和用户设备(UEs)之间的公平性。它通过以吞吐量为导向(TO)的网络和以公平性为导向(FO)的网络之间的协作,协调了这两个相互冲突的目标。此外,还实现了一个分布式训练框架,以提高FG-MAPPO的样本效率和数据多样性。FG-MAPPO与3GPP的条件切换(CHO)框架完全兼容,证明了其在现实世界中的可行性。广泛的评估表明,与集中式算法相比,DHO-F表现出更优越的性能,在SWF指标上平均提升了3.48%。此外,在中等到高负载场景下,DHO-F在平衡公平性和速率最大化方面建立了新的最佳实践(SOTA)性能,优于IDQN、ISAC和MAPPO。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号