面向异构无线通信的对称感知持续深度强化学习多址接入新方案

《IEEE Transactions on Machine Learning in Communications and Networking》:A Novel Multiple Access Scheme for Heterogeneous Wireless Communications Using Symmetry-Aware Continual Deep Reinforcement Learning

【字体: 时间:2025年11月18日 来源:IEEE Transactions on Machine Learning in Communications and Networking

编辑推荐:

  本文针对Metaverse(元宇宙)等动态沉浸式服务对无线通信频谱资源管理提出的挑战,提出了一种基于对称感知持续学习(CL)机制的双重决斗深度Q学习(D3QL)智能媒体接入控制(MAC)协议。研究旨在解决非平稳、多信道异构环境中智能代理与未知传统用户设备(UE)共存时的多址接入问题,以最大化智能代理吞吐量并保证公平性。通过数学分析和仿真验证,所提方案在吞吐量、碰撞率和公平性方面均优于传统深度强化学习(DRL)方法,为6G自维持网络提供了关键技术支撑。

  
在数字化浪潮的推动下,Metaverse(元宇宙)作为下一代互联网的演进形态,正塑造着一个高度动态、沉浸式的虚拟世界。它通过无线通信系统支持大规模数字孪生、远程呈现等前沿服务,模糊了物理与数字空间的界限。然而,这一愿景的实现面临着严峻挑战:无线环境中的频谱资源如何被动态、异构的用户设备(UE)高效共享?特别是在用户数量、传输协议和业务模式频繁变化的非平稳环境中,传统的多址接入技术难以满足微秒级决策和严格服务质量(QoS)的要求。
具体而言,Metaverse服务(如湖边全息会议场景,见图1)具有高度异构性:用户可能采用时分多址(TDMA)、载波侦听多址(CSMA)或信道跳频(CH)等不同协议,且其传输模式随时间动态变化。此外,为保障后向兼容性和隐私,智能代理无法获知传统UE的内部协议细节,进一步增加了频谱管理的复杂度。现有基于深度强化学习(DRL)的MAC方案虽能适应部分异构场景,但难以应对频繁的环境上下文切换,缺乏对历史知识的有效复用,导致在Metaverse等高动态场景中响应迟缓、性能受限。
为解决上述问题,研究人员在《IEEE Transactions on Machine Learning in Communications and Networking》上发表了题为“A Novel Multiple Access Scheme for Heterogeneous Wireless Communications Using Symmetry-Aware Continual Deep Reinforcement Learning”的论文。该研究创新性地将持续学习(CL)机制引入DRL驱动的MAC协议设计,提出了一种基于对称感知的持续双重决斗深度Q学习(CL-D3QL)方案。该方案通过数学建模和仿真验证,显著提升了智能代理在非平稳多信道环境中的吞吐量、公平性和实时响应能力。
关键技术方法包括:1) 构建以Double和Dueling深度Q学习(D3QL)为核心的智能代理,通过长短期记忆(LSTM)网络提取状态特征,并联合全连接层估计状态值和动作优势;2) 设计对称感知持续学习机制,通过识别环境上下文的对称性(如信道置换),复用历史知识,降低状态空间复杂度;3) 定义包含历史动作-观测序列和归一化吞吐量的状态空间,以及支持可变包长的动作空间;4) 采用混合整数非线性规划(MINLP)建模多址接入问题,并基于水填充算法(Water-Filling)保证公平性约束。
系统模型与问题定义
研究考虑一个由小型基站(SBS)覆盖的小区,包含多个异构UE竞争访问C个时隙信道。智能代理(CL-D3QL代理)需与采用TDMA、CSMA或CH协议的传统UE共存,且后者行为对代理不可控。环境非平稳性体现在活跃UE数量及其传输模式的动态变化。通过将系统上下文定义为活跃UE及其信道分配的集合,研究证明了在有限状态空间中,对称性感知可显著减少需学习的上下文数量。
CL-D3QL代理设计
代理的动作空间包括选择信道和可变长度数据包传输。状态空间由最近H次动作-观测对及各信道归一化吞吐量组成。奖励函数设计兼顾吞吐量最大化与公平性约束,对成功传输给予正奖励,对碰撞或超额吞吐量施加惩罚。代理利用LSTM网络捕捉时间依赖关系,并通过双流全连接层分别估计状态值和动作优势,提升策略评估效率。
对称感知持续学习机制
该机制通过识别环境上下文的对称变换(如信道索引置换),将新上下文映射到已学习的参考上下文,从而复用历史经验。数学分析表明,该机制将上下文数量上限限制为(Cγ+C?1)(其中γ为UE类型数,C为信道数),避免了状态空间随环境动态性无限增长。
实验结果与分析
在固定上下文切换点和随机动态环境两种场景下,CL-D3QL方案均优于传统D3QL和随机接入方法。例如,在包含TDMA、CSMA和CH节点的异构网络中,CL-D3QL代理的归一化吞吐量更高,碰撞率更低,且Jain公平指数接近最优。此外,该方案在信道数增加或上下文切换频繁时仍保持稳定性能,凸显其对Metaverse动态服务的适应性。
结论与意义
本研究针对6G和Metaverse服务的动态异构需求,提出了首个基于对称感知持续学习的DRL多址接入方案。通过数学证明和仿真验证,方案在提升频谱效率的同时,保障了与传统协议的公平共存。其创新性在于利用环境对称性实现知识迁移,为非平稳无线网络的智能资源管理提供了新思路。未来工作可结合语义感知协议学习(如LLM)和边缘计算框架,进一步优化跨层资源分配,推动自维持网络的实际部署。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号