
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多头注意力机制的异构边缘计算资源调度优化:深度强化学习在CPU-GPU协同中的应用
【字体: 大 中 小 】 时间:2025年08月09日 来源:Future Generation Computer Systems 6.2
编辑推荐:
本文提出了一种基于深度强化学习(DRL)的异构边缘计算资源调度算法(MAPS-DDPG),通过马尔可夫决策过程(MDP)建模和多头注意力机制,有效优化了无线设备(WDs)在CPU/GPU异构环境下的任务卸载决策。该研究解决了传统强化学习(RL)在未知系统中收敛慢的问题,通过后决策状态(PDS)学习机制整合先验知识,显著降低了信息年龄(AoI)和能耗,为边缘计算(Edge Computing)的实时性需求提供了创新解决方案。
亮点
我们针对仅CPU、仅GPU及CPU-GPU混合设备构建了马尔可夫决策过程(MDP)模型,精准捕捉边缘服务器(ES)与设备的动态特性。
系统模型与问题建模
研究设定包含1个ES和M个无线设备(WDs)的移动边缘计算(MEC)系统,时间轴被划分为等长时隙T={1,2,…,T},每个时隙长度为Δt(见图1)。这种时隙化建模能同步处理任务到达、数据传输和状态更新。
MAPS-DDPG算法:基于DRL的资源调度方案
• MDP建模:在4.1节定义了系统状态、动作空间和奖励函数
• 创新架构:通过多头注意力(Multi-Head Attention)机制为每类设备分配独立权重,高效捕获其对调度决策的影响
• 加速收敛:提出异构计算感知的后决策状态(PDS)学习,利用边缘环境动态先验知识加速探索
性能验证
仿真场景包含1个ES和15个WDs,随机分布在100m×100m区域。设备类型涵盖CPU-only、GPU-only及混合架构。任务到达过程...(数据未完整)
结论
本研究通过改进的深度确定性策略梯度(DDPG)算法,结合多头注意力机制,显著提升了异构边缘环境中AoI和能耗的联合优化性能,为实时计算任务提供了新范式。
(注:翻译严格遵循了术语标注要求,省略了文献引用标识,并采用活泼的专业表述,如"时隙化建模"、"任务到达"等生动说法)
生物通微信公众号
知名企业招聘