基于多头注意力机制的异构边缘计算资源调度优化:深度强化学习在CPU-GPU协同中的应用

【字体: 时间:2025年08月09日 来源:Future Generation Computer Systems 6.2

编辑推荐:

  本文提出了一种基于深度强化学习(DRL)的异构边缘计算资源调度算法(MAPS-DDPG),通过马尔可夫决策过程(MDP)建模和多头注意力机制,有效优化了无线设备(WDs)在CPU/GPU异构环境下的任务卸载决策。该研究解决了传统强化学习(RL)在未知系统中收敛慢的问题,通过后决策状态(PDS)学习机制整合先验知识,显著降低了信息年龄(AoI)和能耗,为边缘计算(Edge Computing)的实时性需求提供了创新解决方案。

  

亮点

我们针对仅CPU、仅GPU及CPU-GPU混合设备构建了马尔可夫决策过程(MDP)模型,精准捕捉边缘服务器(ES)与设备的动态特性。

系统模型与问题建模

研究设定包含1个ES和M个无线设备(WDs)的移动边缘计算(MEC)系统,时间轴被划分为等长时隙T={1,2,…,T},每个时隙长度为Δt(见图1)。这种时隙化建模能同步处理任务到达、数据传输和状态更新。

MAPS-DDPG算法:基于DRL的资源调度方案

MDP建模:在4.1节定义了系统状态、动作空间和奖励函数

创新架构:通过多头注意力(Multi-Head Attention)机制为每类设备分配独立权重,高效捕获其对调度决策的影响

加速收敛:提出异构计算感知的后决策状态(PDS)学习,利用边缘环境动态先验知识加速探索

性能验证

仿真场景包含1个ES和15个WDs,随机分布在100m×100m区域。设备类型涵盖CPU-only、GPU-only及混合架构。任务到达过程...(数据未完整)

结论

本研究通过改进的深度确定性策略梯度(DDPG)算法,结合多头注意力机制,显著提升了异构边缘环境中AoI和能耗的联合优化性能,为实时计算任务提供了新范式。

(注:翻译严格遵循了术语标注要求,省略了文献引用标识,并采用活泼的专业表述,如"时隙化建模"、"任务到达"等生动说法)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号