在GPU上进行的多租户推理服务中,资源分配与请求分批处理的联合优化

《IEEE Transactions on Parallel and Distributed Systems》:Joint Optimization of Resource Allocation and Request Batching for Multi-Tenant Inference Serving on GPU

【字体: 时间:2025年11月25日 来源:IEEE Transactions on Parallel and Distributed Systems 6

编辑推荐:

  GPU资源调度与请求批量处理协同优化技术

  

摘要:

GPU技术显著推动了深度学习(DL)的发展,尤其是在提升推理服务性能方面。租户将推理模型部署在GPU上,这些模型随后由推理服务系统统一调度和执行。在资源受限的环境中,单个GPU需要处理来自多个租户的请求。由于推理任务的多样性、请求频率的变化以及模型架构的不同,设计一个高效的推理服务系统成为一项重大挑战。目前大多数研究分别讨论资源分配和请求批处理,而忽略了它们之间的关键联系。在这种复杂的推理环境中,这种联系尤为重要。为了快速处理来自不同租户的请求,我们利用资源分配和请求批处理之间的关联,设计了DRS(Deep Reinforcement Scheduler)。在DRS中,我们采用深度确定性策略梯度(DDPG)作为调度算法,并利用NVIDIA多进程服务(MPS)来实现多个租户共享单个GPU的空间并行性。通过观察环境信息,我们可以快速调整GPU的分配,并找到合适的请求批量大小,从而保持高效率。实验表明,与基线相比,DRS在处理时间和作业完成时间(JCT)指标上分别实现了2.23倍和24倍的加速。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号