Ares:利用弹性公平排队机制实现深度学习任务的公平高效调度
《ACM Transactions on Architecture and Code Optimization》:Ares: Fair and Efficient Scheduling of Deep Learning Jobs with Elastic Fair Queuing
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Architecture and Code Optimization
编辑推荐:
弹性公平队列调度方法在GPU集群中实现效率与公平性平衡,通过虚拟完成时间预估优化资源分配,实验表明平均任务完成时间降低超20%,不公平服务任务减少超40%。
摘要
调度器在GPU集群中负责模型训练作业的调度,理想的调度器应在公平性和效率方面都表现出色。然而,现有的集群大多只关注其中一个方面,而忽视了另一个方面。为了解决这个问题,鉴于模型训练作业的资源需求通常可以预先估算,我们的方法是优先调度那些在即时公平共享下能够更快完成的作业,这样既能实现“先到先服务”的原则,又能避免某些作业被长期阻塞(即“饥饿”现象)。基于这一理念,我们在本文提出了一种名为Ares的高效且公平的深度学习作业调度器。Ares借鉴了网络公平排队方法中的“虚拟完成时间”概念,该概念支持在作业到达时准确预测其完成顺序。对于那些虚拟完成时间较早的作业,我们允许它们使用比原本所需更多的资源以加快完成速度——这样这些资源也能更快被释放,从而不会对任何作业造成负面影响。我们保持全局批量大小不变以确保结果的准确性,并确保扩展(scale-out)带来的资源利用率下降保持在可控范围内。我们将这种调度方法称为“弹性公平排队”,它可以提供理论上的公平性保障。我们通过实验和大规模仿真测试了对Ares性能的评估。结果表明,Ares能够将平均作业完成时间缩短20%以上,并将不公平服务的作业数量减少40%以上。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号