面向未来通信系统的快速强化学习鲁棒波束码本设计研究

《IEEE Transactions on Communications》:Fast Reinforcement Learning for Robust Beam Codebooks in Future Communication Systems

【字体: 时间:2025年12月11日 来源:IEEE Transactions on Communications 8.3

编辑推荐:

  本文针对毫米波(mmWave)和太赫兹(THz) MIMO系统中预定义波束码本存在的尺寸大、训练开销高、难以支持高移动性应用等问题,提出了一种基于强化学习(RL)的框架。该框架仅利用接收功率测量值优化波束模式,无需先验信道知识即可适应环境、用户分布和硬件约束。研究深入比较了深度确定性策略梯度(DDPG)、双延迟深度确定性策略梯度(TD3)和软演员-评论家(SAC)三种RL算法。仿真结果表明,SAC算法在各种场景下(包括视距(LoS)、非视距(NLoS)条件及硬件损伤下)均优于DDPG和TD3,实现了更高的波束成形增益和更快的收敛速度,为未来通信系统的自适应波束管理提供了高效解决方案。

  
在追求更高无线数据传输速率的道路上,毫米波(mmWave)和太赫兹(THz)频段因其丰富的频谱资源而备受青睐。然而,这些高频信号也面临着显著的路径损耗挑战。为了克服这一难题,大规模多输入多输出(MIMO)技术应运而生,它通过在基站部署大量天线,利用波束成形技术将信号能量集中指向用户,从而有效补偿路径损耗。目前,这些系统通常依赖于预先定义好的波束码本进行初始接入和数据传输。这就好比一个手电筒只能按照预设的几个固定方向照射,缺乏灵活性。这些传统的码本往往存在诸多弊端:它们通常包含大量单瓣波束以覆盖所有可能方向,导致波束训练过程繁琐,开销巨大;其次,其单瓣波束对于非视距(NLoS)用户可能并非最优选择,因为信号可能通过反射、散射等多条路径到达;更重要的是,传统码本设计假设天线阵列是经过完美校准且几何结构已知的,这一假设在实际系统中代价高昂且难以满足,尤其是在阵列存在硬件损伤(如相位失配)或几何结构不规则时。因此,开发能够自适应环境变化和硬件损伤的智能波束成形方案,对于释放毫米波和太赫兹通信的全部潜力至关重要。
为了解决上述挑战,发表在《IEEE Transactions on Communications》上的这项研究,提出了一种创新的强化学习(RL)框架,用于设计自适应、鲁棒的波束码本。该框架的核心目标是仅依靠接收信号强度指示(RSSI)或波束成形增益这类简单的反馈信号,而非复杂且难以获取的信道状态信息(CSI),来优化波束模式,使其能够动态适应特定的用户分布、传播环境以及硬件损伤。
研究人员为了达成目标,主要运用了几个关键技术方法:首先是强化学习算法框架,重点探索并比较了DDPG、TD3和SAC这三种先进的深度强化学习算法在解决连续控制问题上的效能;其次是环境交互与奖励机制设计,系统通过执行动作(调整波束形成器的相位)并观察其带来的平均波束成形增益变化来与环境交互,并采用一种三值奖励函数(+1, 0, -1)来高效引导学习过程;第三是用户聚类与码本学习架构,利用基于接收功率测量的特征提取和K-means聚类算法,将具有相似信道特性的用户分组,并利用匈牙利算法将用户簇动态分配给不同的RL智能体进行并行学习,从而将复杂的多波束码本学习问题分解为多个更易处理的子问题;此外,研究还建立了包含硬件损伤(如相位失配)和实际传播条件(LoS/NLoS)的系统模型,并利用DeepMIMO数据集生成符合真实场景的信道数据用于训练和评估。
IV. 提出的方法论
本研究探索了两种DDPG的替代算法:TD3和SAC。TD3通过引入三个关键改进来解决DDPG的Q值高估偏差问题:它使用两个评论家网络并取较小Q值来计算目标,采用延迟策略更新,以及为目标动作添加平滑噪声。SAC则采用不同的策略,它优化一个随机策略,并在目标函数中加入了熵正则化项以鼓励探索,通过温度参数α动态平衡探索与利用。在波束模式学习的具体应用中,状态(st)定义为当前所有移相器的相位向量,动作(at)是对这些相位的调整量。智能体通过与环境交互,根据新波束产生的平均增益与自适应阈值及历史增益的比较获得奖励,进而学习优化波束模式。
V. 波束码本学习框架
研究提出了一个多智能体RL框架来学习完整的波束码本。该框架首先使用一组感知波束收集用户的接收增益,通过特征变换和K-means算法将用户信道聚类。然后,利用匈牙利算法将新生成的用户簇动态分配给不同的RL智能体。每个智能体专注于为其分配的用户簇学习最优的波束模式。这种分解方法使得系统能够有效学习一个规模减小、且针对当前环境和用户分布优化的码本,从而显著降低波束训练开销。框架支持学习和操作两种模式,允许在后台持续优化码本的同时维持正常通信,并在环境变化时快速自适应。
VI. 实验设置与结果
A. 通信场景
性能评估在两种典型场景下进行:一个是60GHz的户外LoS场景,另一个是28GHz的室内NLoS场景,信道数据均由DeepMIMO生成。
B. 波束学习性能与收敛性
仿真结果表明,SAC算法在波束成形增益和收敛速度上均 consistently 优于TD3和DDPG。例如,在4波束NLoS场景下,SAC达到了等增益合并(EGC)上限的62.36%,而TD3和DDPG分别为61.45%和60.93%。在8波束LoS场景下,SAC的增益为91.39%,明显高于DDPG的88.04%和TD3的87.2%。尽管SAC每次迭代的计算时间稍长,但其收敛所需的总体时间远少于其他算法,例如在4波束NLoS场景下,SAC仅需57分钟即可收敛,而DDPG需要197分钟。SAC的熵正则化机制使其能更智能地平衡探索与利用,从而加速学习。
C. 码本学习
在码本学习任务中,随着码本中波束数量的增加,所有算法的平均波束成形增益均呈现上升趋势,SAC始终保持领先。学习的波束图案显示,在NLoS场景下,SAC能够生成多瓣波束,有效捕获来自多个路径的信号能量,展现了其对复杂传播环境的适应能力。用户聚类和分配步骤的计算开销很小,即使在16波束码本下,聚类耗时也仅为73.8毫秒,分配耗时6.9毫秒,表明该框架具有实用性。
D. 硬件损伤:鲁棒性分析
在NLoS场景下引入相位失配硬件损伤后,SAC算法展现出了最强的鲁棒性。当相位失配的标准差σp从0.10增加到0.20时,SAC学习的8波束码本性能保持稳定,增益仅在小范围内波动(约74.70%至72.87%),始终高于TD3和DDPG。这证明SAC能够学习补偿硬件损伤,在实际系统中维持可靠性能。
VII. 结论
本研究对TD3、SAC和DDPG三种RL算法在毫米波/太赫兹大规模MIMO系统波束码本优化中的应用进行了深入比较。结果表明,基于SAC的解决方案在波束成形增益、收敛速度和环境适应性方面均表现最佳,特别是在挑战性的NLoS环境和存在硬件损伤的条件下。该研究为未来通信系统实现高效、自适应和鲁棒的波束管理提供了一条有前景的途径,仅依赖简单的接收功率反馈即可持续优化系统性能,降低了对传统信道估计的依赖,具有重要的理论和实践意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号