在GPU上进行的多租户推理服务中，资源分配与请求分批处理的联合优化

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Parallel and Distributed Systems》：Joint Optimization of Resource Allocation and Request Batching for Multi-Tenant Inference Serving on GPU

【字体：大中小】 时间：2025年11月25日 来源：IEEE Transactions on Parallel and Distributed Systems 6

编辑推荐：

　　GPU资源调度与请求批量处理协同优化技术

摘要：

GPU技术显著推动了深度学习（DL）的发展，尤其是在提升推理服务性能方面。租户将推理模型部署在GPU上，这些模型随后由推理服务系统统一调度和执行。在资源受限的环境中，单个GPU需要处理来自多个租户的请求。由于推理任务的多样性、请求频率的变化以及模型架构的不同，设计一个高效的推理服务系统成为一项重大挑战。目前大多数研究分别讨论资源分配和请求批处理，而忽略了它们之间的关键联系。在这种复杂的推理环境中，这种联系尤为重要。为了快速处理来自不同租户的请求，我们利用资源分配和请求批处理之间的关联，设计了DRS（Deep Reinforcement Scheduler）。在DRS中，我们采用深度确定性策略梯度（DDPG）作为调度算法，并利用NVIDIA多进程服务（MPS）来实现多个租户共享单个GPU的空间并行性。通过观察环境信息，我们可以快速调整GPU的分配，并找到合适的请求批量大小，从而保持高效率。实验表明，与基线相比，DRS在处理时间和作业完成时间（JCT）指标上分别实现了2.23倍和24倍的加速。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号