基于注意力增强多智能体深度强化学习的车联网任务卸载与资源分配优化研究
【字体:
大
中
小
】
时间:2025年10月11日
来源:Digital Communications and Networks 7.5
编辑推荐:
本文针对车联网(V2X)环境中低延迟、计算密集型应用的需求,提出了一种基于注意力增强多智能体深度确定性策略梯度(AT-MADDPG)的自适应任务卸载方法。研究通过联合优化计算卸载和资源分配,实现了能量消耗和服务延迟的最小化。仿真结果表明,该算法在高需求动态场景下显著提升了性能,为智能交通系统提供了有效的解决方案。
随着智能交通系统的快速发展,数字孪生、自动驾驶、实时导航和增强现实等应用已成为车载主要场景,这些应用产生了大量低延迟和计算密集型任务。然而,车辆终端资源有限且与集中式云计算模型的物理距离较远,难以满足严格的通信需求。移动边缘计算(MEC)作为一种新范式,凭借其贴近用户、低延迟和位置感知等优势被广泛采用,它使得计算、通信和缓存资源能够部署在边缘,包括基站和路边单元(RSU)。这种方法促进了云计算向边缘的迁移,实现了车辆附近的计算卸载,建立了低延迟、高带宽和高可靠性的车辆任务处理范式。
在车辆执行任务卸载时,其高移动性导致车辆与边缘服务器之间以及车辆自身之间的连接具有概率性。此外,每个任务都需要基于多个属性对所有可能的卸载决策进行详尽评估。随着需要卸载的车辆数量增加,计算卸载的复杂性呈指数级增长。传统方法主要依赖V2I(车对基础设施)或V2V(车对车)单一模式进行卸载,各有局限性:V2V性能可能随着车辆距离增加而下降,而V2I则受限于边缘服务器的覆盖范围和容量。因此,整合两种方法可以提供更强大有效的解决方案。
针对多样化体验质量(QoE)需求,本研究探讨了一个V2X通信网络,其中具有计算密集型任务的车辆可以通过V2I链路自适应地将任务卸载到边缘服务器,或通过V2V链路卸载到邻近车辆,旨在最小化系统的加权能量消耗和延迟。
为了开展这项研究,研究人员采用了多智能体深度强化学习框架,特别引入了注意力机制来增强学习效率。主要技术方法包括:1)建立包含V2I和V2V链路的综合系统模型;2)构建基于部分可观测马尔可夫决策过程(POMDP)的问题公式化;3)设计注意力增强的多智能体深度确定性策略梯度(AT-MADDPG)算法;4)在符合3GPP标准的真实城市V2X场景中进行仿真验证。研究还考虑了来自中山大学电子与通信工程学院的实验环境设置。
研究人员考虑了一个涉及多个请求车辆(RV)、路边单元(RSU)和具有空闲资源的服务车辆(SV)的动态卸载场景。该系统模型聚焦于最大可容忍服务延迟为Tmax的延迟敏感计算任务。任务j由三元组(Dij, Cij, tij)定义,分别表示数据大小、所需CPU周期数和任务到达时间。在通信模型方面,数据可以从RVi通过V2V链路传输到SV,或通过V2I链路传输到具有边缘服务器的RSU。V2V和V2I链路是正交的,其可实现数据速率分别由公式(1)和(2)给出。在计算模型方面,研究人员详细分析了本地计算、V2I链路卸载和V2V链路卸载的延迟和能量消耗,并建立了相应的数学表达式。
基于提出的V2X系统,信息在RSU和所有车辆之间交换。为了减少这些开销,研究人员提出了一个优化算法,旨在通过联合优化卸载决策变量、卸载比率、通信带宽分配、传输功率和计算资源分配,最小化第t个时隙中所有车辆的长期服务延迟和能量消耗。联合优化问题被表述为公式(15)及其约束条件(15a)-(15j),这是一个具有二进制变量的混合整数非线性规划(MINLP)问题。
研究人员将动态决策问题建模为部分可观测马尔可夫决策过程(POMDP),采用智能边缘V2X计算系统来模拟多智能体交互环境。每个RV被视为一个智能体,根据其观察到的状态和政策做出决策。RSU作为集中式处理器,通过接收所有RV的状态更新来收集全局信息。状态空间定义为公式(16)和(17),动作空间定义为公式(18)和(19),奖励函数定义为公式(20)和(21)。
4.4.基于AT-MADDPG的计算卸载和资源分配
基于图2所示的AT-MADDPG框架,算法1描述了V2X环境中的计算卸载和资源分配过程。每个智能体i初始化演员网络μi和评论家网络Qi,以及相应的目标网络μ'i和Q'i。学习过程通过多个回合进行,涉及经验回放缓冲区、迷你批次采样和网络更新,其中目标值计算、评论家网络损失函数和演员网络策略梯度分别由公式(22)、(23)和(24)定义。
如图3所示,研究人员在评论家网络中采用了多头注意力机制。输入观察首先通过嵌入层转换为密集表示向量。对于每个头h,生成独立的查询、键和值向量(公式27)。核心操作涉及缩放点积块(公式28)和多层感知器(MLP)块(公式29),最终产生增强的潜在表示(公式30和31)。
在符合3GPP技术规范的 urban V2X场景中进行的仿真表明,提出的AT-MADDPG算法在收敛速度、能量消耗和服务延迟方面均优于MADDPG、SADDPG和RANDOM基线算法。具体而言,AT-MADDPG在约200个回合内收敛,而MADDPG需要约500个回合。在性能方面,随着RV数量的增加,AT-MADDPG在能量消耗和延迟减少方面表现出更显著的改进。研究还探讨了注意力头数的影响(图5)和成本函数权重的影响(图8),证明了该方法的灵活性和适应性。
该研究通过引入注意力增强的多智能体深度强化学习框架,成功解决了V2X环境中计算卸载和资源分配的复杂优化问题。与传统方法相比,AT-MADDPG算法不仅收敛更快,而且在能量效率和延迟性能方面都有显著提升。特别是在高负载动态场景下,该算法展现出了优越的适应性,为未来智能交通系统的发展提供了重要的技术支撑。研究的创新点在于将注意力机制与多智能体强化学习相结合,使系统能够优先处理相关状态信息,从而更有效地平衡V2I和V2V链路的资源利用。这项工作为车联网边缘计算领域的进一步研究奠定了坚实基础,并为实际应用提供了有价值的参考。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号