
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于离策略强化学习的环境反向散射与能量收集中继辅助D2D网络优化框架
【字体: 大 中 小 】 时间:2025年06月30日 来源:Results in Engineering 6.0
编辑推荐:
本研究针对中继辅助D2D网络中动态频谱共享和能量效率问题,提出了一种新型离策略强化学习框架MLAMSPA。研究人员开发了混合传输模式(ABSM/ARTRM)和HRSTT策略,通过Q-learning优化实时感知和功率分配,显著提升了网络和速率(sum-rate)并降低了中断概率(outage)。该成果为5G/6G物联网通信提供了创新解决方案。
在物联网和5G/6G通信快速发展的背景下,如何实现高效节能的无线通信成为关键挑战。传统中继辅助设备间通信(D2D)网络面临动态信道条件、随机主用户活动性和能量受限等问题,特别是在环境反向散射(Ambient Backscatter Communication System, ABCS)与无线供电通信网络(Wireless Powered Communication Network, WPCN)融合场景中,现有协议难以实时适应复杂环境变化。
为解决这些问题,国内研究人员在《Results in Engineering》发表研究,提出创新性的离策略强化学习框架MLAMSPA(Machine Learning-aided Module for Sensing and Power Allocation)。该研究构建了支持混合传输模式(主动射频收发模式ARTRM和环境反向散射模式ABSM)的中继架构,采用收获-接收-感知-传输(HRSTT)策略,通过深度强化学习动态优化功率分配和频谱感知,显著提升了网络性能。
关键技术方法包括:1)建立包含随机驻留时间的端到端分析框架;2)设计基于Q-learning的MLAMSPA算法,集成重要性采样和贝尔曼方程;3)采用蒙特卡洛仿真验证性能,分析参数包括反射系数ρ、能量收集时间τh、反向散射时间τBS等。
系统模型部分展示了双源双目的中继网络架构,所有信道服从瑞利衰落。研究提出创新的时间帧结构,将传输过程划分为能量收集、源-中继传输、感知和中继-目的传输四个阶段。通过MLAMSPA实现两种传输场景的动态切换:当主用户存在时采用ABSM模式,通过反射系数ρ调制信号;否则采用ARTRM模式直接传输。
和速率性能分析表明,当能量收集时间从0.05Tf增至0.08Tf时,系统吞吐量提升约40%。特别值得注意的是,在反射系数ρ=0.9时,反向散射时间τBS增加能使和速率提高15-20%,验证了环境反向散射的增益。中断概率研究显示,当信噪比阈值γT=0.02时,案例2(混合模式)的中断概率比纯主动传输降低57.89%,凸显了动态模式切换的优势。
与KNN基线方法对比实验证实,MLAMSPA在5%检测误差下实现96.5%的准确率,显著优于传统方法的92.25%。功率分配优化使得用户2(较远节点)的接收信噪比提升66.13%,验证了NOMA(非正交多址)功率域复用的有效性。
该研究创新性地将离策略强化学习应用于动态频谱共享场景,解决了传统优化方法难以处理随机变量(τBS和hRD,k)的局限性。提出的MLAMSPA框架不仅实现了毫秒级实时决策,还通过奖励函数设计平衡了和速率最大化与功率偏差惩罚,为能量受限的物联网设备提供了可靠通信保障。研究结果对推动绿色通信技术发展、优化5G异构网络资源分配具有重要指导意义,特别适用于大规模机器类通信(mMTC)和超可靠低时延通信(URLLC)场景。
生物通微信公众号
知名企业招聘