面向边缘-云环境的效率感知自适应深度强化学习动态任务调度框架

【字体: 时间:2025年06月29日 来源:Results in Engineering 6.0

编辑推荐:

  为解决边缘-云环境中动态任务调度的资源分配和延迟敏感性问题,研究人员提出EADRL框架,通过自适应学习率和动态置信感知奖励机制优化调度决策。实验表明,相比DDQN、DDPG等方法,EADRL在任务响应时间、成功率和负载均衡方面提升显著,为分布式计算提供了高效解决方案。

  

随着物联网(IoT)应用的爆炸式增长,智能终端设备产生的计算密集型任务对实时性要求越来越高。然而,传统云计算模式因网络延迟难以满足需求,而边缘计算虽然能降低延迟,却面临资源受限、负载波动大等挑战。现有调度方法如SRP-DRL采用固定学习率和静态奖励机制,在动态边缘环境中表现不佳。如何实现高效、自适应的任务调度成为亟待解决的问题。

针对这一挑战,研究人员开发了效率感知自适应深度强化学习(Efficiency-Aware Adaptive Deep Reinforcement Learning, EADRL)框架。该框架创新性地引入两种机制:一是根据奖励趋势动态调整的自适应学习率,提升模型收敛性;二是结合系统反馈和置信系数的动态奖励机制,通过近期奖励方差调整Q值更新,增强决策稳定性。实验证明,EADRL在任务响应时间、成功率和负载均衡等关键指标上显著优于Double DQN(DDQN)、Deep Deterministic Policy Gradient(DDPG)等基准方法。

研究采用的主要技术方法包括:1)基于深度Q网络(Deep Q-Network, DQN)的强化学习框架;2)实时负载建模技术,通过CPU、内存和I/O需求计算节点负载;3)动态奖励函数设计,整合任务延迟、处理速率等系统指标;4)经验回放机制(buffer size=800)和mini-batch梯度下降(batch size=60)优化训练过程。

研究结果部分:

  1. 系统架构与负载建模
    提出边缘-云分层计算模型,建立任务分析模型(式3)和实时负载模型(式11-16)。通过定义任务紧急度评分(式2)和节点处理速度动态模型(式18),为调度决策提供量化依据。

  2. EADRL模型设计
    开发自适应学习率机制(式19)和动态奖励调整策略(式20)。引入置信系数(式22)调节Q值更新(式21),在波动条件下保持稳定学习。实验显示完整EADRL配置比单一机制版本响应时间降低7.97-12.17%。

  3. 性能评估
    在四种实验场景中,EADRL均表现最优:

  • 任务量变化(8,000-24,000):响应时间比DDQN降低20%,成功率提高4.04%
  • 任务到达率(20-40):负载方差比DDPG减少32.08%
  • 虚拟机数量(10-18):成功率比EITF提升164.94%
  • 任务长度变异(σ=10-50):响应时间比SRP-DRL降低17.14%

研究表明,EADRL框架通过自适应机制有效解决了边缘环境中的动态调度难题。其创新点在于:1)首次将置信感知奖励缩放引入边缘计算调度;2)实现学习率与系统状态的动态耦合;3)在负载方差指标上比最佳基准方法提升达30.51%。这些突破为智能交通、工业物联网等延迟敏感应用提供了关键技术支撑。

未来工作可沿三个方向拓展:一是研究联邦强化学习在分布式边缘系统中的应用;二是探索多智能体协作调度机制;三是针对自动驾驶等超低延迟场景进行定制优化。该成果发表于《Results in Engineering》,为边缘-云融合计算的发展提供了重要理论和方法参考。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号