基于主动奖励学习的5G移动网络资源分配优化及其在智能交通系统中的应用

【字体: 时间:2025年06月10日 来源:Engineering Science and Technology, an International Journal 5.1

编辑推荐:

  本研究针对5G网络切片中动态资源分配的挑战,提出了一种基于深度强化学习(DRL)和主动奖励学习的方法。通过构建高斯过程奖励模型,实现了网络参数(如SOR、SE、QoE)的动态权重调整,在5G网络切片中实现了15%的平均包延迟降低和10%的频谱效率提升,并在智能交通系统(ITS)中实现了20%的车辆等待时间减少。该研究为动态网络环境下的资源优化提供了创新解决方案。

  

随着5G技术的快速发展,移动数据流量呈现指数级增长,这对网络资源分配提出了前所未有的挑战。传统的静态资源分配方法已无法满足5G网络高密度、异构化和动态化的需求,特别是在网络切片场景下,如何实现高效的资源分配成为制约5G性能提升的关键瓶颈。网络切片技术虽然能够将物理网络划分为多个虚拟网络以满足不同服务需求,但其资源管理面临着硬件限制、服务需求多样化和无线环境不可预测等多重挑战。

在这样的背景下,研究人员开展了一项创新性研究,旨在通过深度强化学习和主动奖励学习的结合,解决5G网络动态资源分配问题。该研究发表在《Engineering Science and Technology, an International Journal》上,提出了一种实时动态资源分配方法,不仅优化了5G网络性能,还将该技术成功应用于智能交通系统。

研究采用了多项关键技术方法:1) 基于深度Q学习(Deep Q-Learning)的强化学习框架;2) 高斯过程(Gaussian Process)构建的主动奖励模型;3) 包含SOR(子信道占用率)、SE(频谱效率)和QoE(用户体验质量)的多参数奖励函数;4) 四优先级队列的动态资源分配机制;5) 基于SUMO(城市交通模拟)和FLOW平台的仿真验证。

研究结果部分,"系统模型"中提出了一个包含基站(gNodeB)、用户设备(UE)和云切片的5G网络架构,通过四优先级队列(低、中、高、紧急)实现请求分类。"动作空间"部分设计了基于状态-动作函数的多智能体系统,每个智能体根据局部观察选择资源分配动作。"资源分配优化问题"中建立了包含带宽、通信功率和CPU使用的资源约束模型,并提出了基于UBV(用户商业价值)、TC(时间关键性)和生命周期的优先级计算模型。

"深度强化学习交通信号灯系统资源分配模型"部分将研究成果扩展到智能交通领域。通过定义包含队列长度和密度的状态空间,以及包含NSG(南北绿灯)、EWG(东西绿灯)等信号相位动作空间,构建了基于DRL的交通信号控制系统。奖励函数综合考虑了队列长度、密度和交通流量,实现了交通效率的显著提升。

"评估方法学"部分通过在多伦多、伦敦、纽约和UBC校园四种不同道路网络下的仿真验证,证明了该方法的优越性。结果显示,在1400次迭代后,与传统的强化学习方法相比,主动学习方法在多伦多地图上实现了超过20%的包丢失率降低,在纽约曼哈顿网格道路上实现了15%的改进。在智能交通应用中,该方法将平均旅行时间减少了13分钟,燃料消耗和CO2
排放也显著降低。

研究结论部分指出,这种基于主动奖励学习的深度强化学习方法在5G网络切片资源分配中表现出色,不仅提高了网络性能指标,还成功应用于智能交通系统,展现了良好的通用性。该方法通过动态调整奖励函数中各参数的权重,实现了对网络条件和流量模式的实时适应,为未来智能网络管理提供了新的技术路径。特别值得注意的是,研究中提出的gNodeB间资源请求机制增强了系统的灵活性和可扩展性,为解决5G网络资源分配难题提供了创新解决方案。

这项研究的科学意义在于:1) 首次将主动奖励学习应用于5G网络资源分配问题;2) 开发了能够同时学习动作策略和奖励函数的创新框架;3) 验证了该方法在真实交通场景中的适用性;4) 为未来6G网络的智能资源管理奠定了基础。该成果不仅对通信领域有重要价值,也为其他需要动态资源分配的领域(如边缘计算、物联网等)提供了借鉴。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号