
-
生物通官微
陪你抓住生命科技
跳动的脉搏
AdaGap:基于深度Q网络的异构集群GPU共享自适应间隙感知资源分配策略
【字体: 大 中 小 】 时间:2025年05月19日 来源:Future Generation Computer Systems 6.2
编辑推荐:
针对异构GPU集群中资源碎片化和利用率低下的问题,上海理工大学团队提出AdaGap策略,通过深度Q网络(DQN)动态优化资源分配,最小化资源间隙(gap)。实验基于阿里云真实数据验证其有效性,相比基线方法显著降低任务完成时间,为高性能计算和深度学习任务提供自适应解决方案。
在当今高性能计算和深度学习(DL)领域,异构GPU集群凭借其灵活性和成本效益成为关键基础设施。然而,GPU共享技术虽能提升资源利用率,却因静态分配策略(如NVIDIA MPS1和MIG2)的局限性,导致资源间隙(gap)和碎片化问题突出。据阿里云和微软数据,GPU实际利用率常低于50%,严重影响任务完成效率。上海理工大学的研究团队针对这一挑战,开发了AdaGap——一种基于深度Q网络(DQN)的自适应间隙感知资源分配策略,相关成果发表于《Future Generation Computer Systems》。
研究采用深度强化学习(DRL)框架,将资源分配建模为马尔可夫决策过程(MDP),通过动态调整节点选择策略优化GPU和CPU资源匹配。关键技术包括:1)利用阿里云真实集群数据构建30节点异构环境;2)设计DQN算法处理高维状态空间(如GPU类型、资源余量);3)对比传统方法(RR、SJF)和DRL基线(PPO、A3C)。
研究结果部分:
局限性分析:指出现有GPU共享技术(如MPS需手动配置,MIG分区僵化)无法适应动态负载,导致间隙累积。
AdaGap框架:通过实时监测资源间隙(图4)和任务需求,DQN智能体选择最优节点,减少碎片化。实验显示其分配延迟低于DDQN,适合实时场景。
实验验证:在RTX 3050/AMD Ryzen 7硬件环境中,AdaGap将任务完成时间缩短20%-35%,显著优于随机分配和SJF。
结论表明,AdaGap通过动态间隙感知机制,在异构集群中实现资源利用率最大化。其创新性在于将DRL与实时资源监控结合,为云平台提供可扩展解决方案。未来工作将探索多目标优化(如能耗与性能平衡),进一步推动GPU共享技术的发展。
生物通微信公众号
知名企业招聘