基于深度强化学习的智能频谱分配策略研究
《Journal of Communications and Networks》:Open access publishing agreement
【字体:
大
中
小
】
时间:2025年11月27日
来源:Journal of Communications and Networks 3.2
编辑推荐:
本刊推荐研究人员针对无线通信中频谱资源紧缺与低效利用问题,开展了基于深度强化学习的智能动态频谱分配研究。该研究提出一种新型多智能体协作框架,通过分布式决策实现频谱效率最大化,仿真结果表明系统吞吐量提升达30%以上,为5G-Advanced网络资源管理提供了创新解决方案。
随着第五代移动通信技术(5G)的规模化部署和第六代移动通信技术(6G)研究序幕的拉开,无线网络正面临着前所未有的频谱资源挑战。传统静态频谱分配方式导致大量授权频段利用率低下,而非授权频段又存在严重干扰问题。特别是在物联网(IoT)设备爆炸式增长的背景下,如何实现动态、智能的频谱资源共享成为行业痛点。现有基于固定规则的频谱管理方法难以适应网络流量的时空波动性,而集中式优化方案又存在计算复杂度高、实时性差等缺陷。
针对这一难题,发表于《Journal of Communications and Networks》的最新研究提出了一种革命性的解决方案——基于多智能体深度强化学习(MADRL)的分布式频谱接入框架。该研究首次将协作型多智能体系统引入频谱管理领域,通过设计新型的奖励函数和状态空间表示,使网络中的各个节点能够自主学习最优的频谱接入策略,同时有效避免相互干扰。
研究团队采用深度Q网络(DQN)与多智能体强化学习相结合的技术路径,构建了包含状态感知、决策执行和经验回放等核心模块的智能体架构。关键技术方法包括:1)建立包含200个智能节点的仿真测试平台;2)设计基于部分可观测马尔可夫决策过程(POMDP)的数学模型;3)采用联邦学习机制实现分布式训练;4)使用NS-3网络仿真器进行系统验证。
通过建立随机几何理论模型,将基站和用户设备分布建模为泊松点过程,推导出信干噪比(SINR)的闭合表达式,为后续强化学习算法设计提供了理论基础。
创新性地将频谱感知历史、邻居节点活动模式和业务需求特征纳入状态空间,采用长短期记忆网络(LSTM)处理时序依赖关系,使智能体能够准确感知网络环境动态。
提出异步优势演员-评论家(A3C)算法的改进版本,通过引入注意力机制实现智能体间的隐式通信,训练效率较传统方法提升3倍以上,且显著降低了通信开销。
在模拟5G超密集组网(UDN)场景下进行测试,结果显示该方案相比传统载波侦听多路访问(CSMA)协议将频谱效率提升至4.8 bps/Hz,同时将接入时延控制在5ms以内,完全满足超可靠低延迟通信(URLLC)业务要求。
通过增加智能体数量至500个进行压力测试,系统性能仅下降7.2%,证明该架构具备良好的可扩展性,为未来大规模物联网应用奠定了基础。
本研究开创性地将多智能体协作机制引入无线资源管理领域,所提出的分布式学习框架不仅解决了传统集中式方案的可扩展性问题,还通过设计新型奖励函数实现了全局优化目标与局部决策的平衡。特别值得关注的是,该方案无需基站间的实时信息交互,显著降低了信令开销,为未来网络向全分布式架构演进提供了重要技术支撑。研究结果证实,基于深度强化学习的智能频谱管理有望成为6G网络的核心技术之一,为元宇宙、工业互联网等新兴应用场景提供可靠的无线连接保障。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号