面向AI原生6G:基于在线优化与深度强化学习的自主网络切片技术研究
《IEEE Internet of Things Magazine》:Toward AI-Native 6G: Unveiling Online Optimization and Deep Reinforcement Learning for Autonomous Network Slicing
【字体:
大
中
小
】
时间:2025年11月24日
来源:IEEE Internet of Things Magazine CS6.8
编辑推荐:
本文针对6G网络中AI服务动态资源需求难以高效满足的问题,研究了面向“切片学习”(S2L)的自主网络切片框架。研究首次提出联合优化通信资源、计算资源与AI超参数的多服务精度最大化方法,并对比了深度强化学习(DQN)与在线凸优化(EXP3)两种智能体在动态、对抗环境下的适应性。实验表明,DQN在长期目标优化和模型适应速度上表现更佳,而EXP3在资源受限和对抗场景中更具稳健性。该研究为AI原生6G网络的零接触运维提供了关键理论与技术支撑。
随着物联网(IoT)和边缘设备的智能化发展,6G网络正朝着AI原生(AI-Native)方向演进。传统网络切片(Network Slicing, NS)采用静态配置模式,难以适应AI服务对通信资源、计算资源与超参数调优的动态需求。尤其在边缘计算场景中,资源受限的IoT设备需将AI模型训练任务卸载至边缘服务器,而不同AI服务在模型架构、数据质量、时延要求等方面存在显著差异,使得资源分配问题变得异常复杂。现有“切片学习”(Slice to Learn, S2L)方案多孤立优化通信或计算维度,缺乏对AI超参数(如训练轮数、学习率)的协同优化,且未能充分考虑数据质量动态变化、对抗攻击等现实挑战,导致模型训练精度波动大、长期运维目标难以保障。
为应对上述挑战,本研究提出首个面向S2L的联合优化框架,将通信带宽、CPU频率与AI超参数作为统一决策变量,以最大化多AI服务的平均训练精度为目标。研究团队设计了符合O-RAN(Open RAN)标准的系统架构,将智能切片代理嵌入非实时无线智能控制器(Non-RT RIC)与近实时无线智能控制器(Near-RT RIC),实现跨无线接入网(RAN)与传输层边缘节点的联合资源调度。针对优化问题的NP-hard特性,团队引入两种自主学习代理:基于深度强化学习(Deep Reinforcement Learning, DRL)的深度Q网络(Deep Q-Network, DQN)和基于在线凸优化(Online Convex Optimization, OCO)的指数权重探索利用算法(EXP3),系统对比其在动态环境中的收敛速度、抗干扰能力与长期目标遵循性。
关键技术方法包括:1) 构建联合优化目标函数,引入时变数据质量因子m(t)模拟真实环境不确定性;2) 在O-RAN架构中部署智能代理,通过E2接口(E2 Interface)收集KPI报告并下发资源分配指令;3) 采用CNN-LSTM(Convolutional Neural Network-Long Short-Term Memory)模型族验证不同AI服务的精度响应曲线;4) 通过对抗序列生成与多预算场景测试,评估智能体在恶意数据操纵及设备寿命约束下的稳健性。
通过交替引入相似/差异显著的AI模型组,对比DQN与EXP3的适应效率。结果显示,在模型参数相近的场景中,DQN仅需1225回合即可收敛至最优精度的98%,而EXP3需501回合;当模型差异增大时,DQN凭借经验回放机制快速调整策略,收敛步数仅为EXP3的1/5。表明DQN在动态服务更迭环境下具有更优的上下文学习能力。
以批处理规模(512-2048)与壁钟时间(Wall-clock Time)为指标,EXP3在CPU环境下单步执行耗时仅为DQN(CPU+GPU协同)的30%-40%,但DQN通过更少的有效步数达到目标精度。在批处理规模2048时,DQN达到98%精度需1800秒,EXP3需600秒,但后者需3倍步数补偿,凸显DQN在时效敏感场景的潜力。
通过构造高频(每步交替)/低频(每三步交替)数据质量攻击序列,在4000与18000维动作空间中测试智能体稳定性。EXP3在大型动作空间下精度保持86%-97%,而DQN受策略价值函数扰动影响,精度下降至42%-80%。证明无状态OCO算法对对抗环境具有天然鲁棒性。
引入读写预算(Read/Write Budget)模拟存储设备损耗约束。DQN通过多状态感知权衡短期精度与设备寿命,在预算2000时训练模型数量达EXP3的2.7倍(411 vs. 150),仅牺牲10%精度;EXP3因缺乏状态记忆,优先追求单任务高精度而快速耗尽预算。凸显DRL在可持续运维场景的优势。
本研究通过系统性实验揭示了DRL与OCO在AI驱动网络切片中的互补特性:DQN擅长处理状态依赖的长期优化问题,而EXP3在资源受限与对抗场景中更具弹性。研究成果为6G网络实现零接触管理(Zero-touch Management)提供了算法选型依据,并开创了将L2S(Learn to Slice)智能嵌入S2L流程的新范式。未来方向包括生成式AI(如LLM)与DRL/OCO的融合、漂移检测(Drift Detection)机制设计、训练与推理任务的联合优化等,以推动AI原生6G向全自主运维演进。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号