基于多智能体深度强化学习的移动边缘计算中多任务部分计算卸载优化研究

【字体: 时间:2025年05月12日 来源:Future Generation Computer Systems 6.2

编辑推荐:

  为解决移动边缘计算(MEC)中计算资源有限导致的负载不均和任务延迟问题,研究人员开展了基于多智能体深度强化学习(MADRL)的多任务部分计算卸载研究,提出了一种分布式卸载算法,有效平衡了终端设备与MEC服务器的计算负载,降低了任务处理成本并减少了超时任务比例,为动态无线信道环境下的实时决策提供了新思路。

  

随着无线通信技术的快速发展,越来越多的终端设备接入网络边缘,但有限的本地计算资源难以高效处理数据挖掘、虚拟现实(VR)等计算密集型应用。移动边缘计算(MEC)通过将部分计算任务卸载到网络边缘服务器,既能提升服务质量(QoS),又可延长终端电池寿命。然而,传统启发式算法和博弈论方法存在场景适应性差、收敛速度慢等问题,而现有基于单智能体深度强化学习(DRL)的卸载方案又因集中式决策导致通信开销过高。更关键的是,当前研究普遍忽略任务排队问题,假设任务总能在一个时隙内完成,这与实际场景严重不符。

针对这些挑战,南京理工大学计算机科学与技术学院的Han Li等研究人员在《Future Generation Computer Systems》发表论文,提出了一种基于多智能体深度强化学习(MADRL)的分布式卸载算法。该研究创新性地引入队列模型刻画MEC系统负载状态,将多任务部分计算卸载问题建模为完全协作的马尔可夫博弈,通过联合优化终端设备的发射功率和任务卸载比例,实现了系统负载均衡与长期平均任务处理成本最小化的双重目标。

关键技术方法包括:1) 建立包含终端设备队列和MEC服务器队列的系统模型;2) 采用集中训练分布式执行(CTDE)框架实现多智能体协作;3) 将优化问题转化为马尔可夫决策过程(MDP);4) 设计基于深度Q网络(DQN)的分布式决策机制。

系统模型部分构建了包含基站、MEC服务器和M个终端设备的网络架构,采用时隙操作模式,每个任务um,n(t)由数据大小zm,n(t)、计算密度γm,n(t)和延迟阈值dcm,n(t)三元组定义。

MADRL-based分布式卸载算法将原始优化问题P1转化为完全协作的多智能体强化学习问题P2,通过马尔可夫博弈建模,使各设备智能体在动态环境中协同优化本地卸载策略。实验表明,在时隙Δ=0.5s、设备数M=5、任务数N=3的设置下,该算法相比基线方法显著降低了15.7%的能耗和23.4%的超时任务比例。

结论指出,该研究首次将队列模型引入MADRL框架,解决了传统方法忽视任务累积效应的缺陷。通过分布式决策机制,既避免了集中式方案的高通信开销,又实现了:1) 系统负载动态平衡;2) 终端设备长期成本最小化;3) 延迟阈值严格保障。这项工作为5G/6G时代计算密集型应用的实时卸载提供了可扩展解决方案,其CTDE框架也可拓展至其他分布式资源分配场景。

(注:全文严格依据原文内容撰写,专业术语如MADRL(多智能体深度强化学习)、CTDE(集中训练分布式执行)等均在首次出现时标注英文全称,数学符号保持原文的上下标格式,作者单位采用中文名称,未引用具体文献编号和图示。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号