基于资源感知的分布式训练任务调度,用于GPU集群的碎片化优化
《IEEE Transactions on Networking》:Resource-Aware Distributed Training Job Placement for GPU Cluster Defragmentation
【字体:
大
中
小
】
时间:2025年12月09日
来源:IEEE Transactions on Networking
编辑推荐:
分布式训练中资源碎片化问题及优化方案研究,提出Titan方案通过动态重整算法和贪心优化提升GPU集群利用率,实验显示效率提升74.9%。
摘要:
分布式训练(DT)作为一种解决方案,旨在应对大规模机器学习模型训练日益增长的计算资源需求。为了满足这一需求,云服务提供商通常会构建GPU集群来处理DT任务。对于DT任务请求,云服务提供商需要确定将任务分配到哪些GPU上。现有的方法通常会尽量将任务分配到闲置的GPU上,以减少通信时间。然而,这种做法会导致资源碎片化问题,从而降低GPU集群的资源利用率,并增加云服务提供商的训练成本。在本文中,我们提出了一种名为Titan的新任务调度方案,该方案通过提高非闲置GPU的利用率来减轻资源碎片化的影响。为了进一步优化资源分配,我们引入了一种动态去碎片化算法,用于迁移碎片化的任务,以整合GPU资源,从而实现大规模训练任务的高效调度。Titan提出了一个多目标非线性优化问题,并证明了其NP难度。为了解决这个问题,Titan提出了一种基于次模性的贪心算法,该算法具有紧密的近似比(1)。我们通过使用真实世界任务数据的大规模仿真以及由8台服务器(每台服务器配备32个逻辑GPU)组成的小型测试平台对Titan进行了评估。实验结果表明,与现有的最佳解决方案相比,Titan能够实现接近最优的训练吞吐量,并将集群效率提高了74.9%。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号