PPD:一种用于深度学习的便携式且高度并行的调度系统
《ACM Transactions on Design Automation of Electronic Systems》:PPD: A Portable and Highly Parallel Dispatching System for Deep Learning
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Design Automation of Electronic Systems
编辑推荐:
本文提出PPD并行调度系统,通过将计算图划分为多任务流子图并利用多CUDA流并行优化,提升深度学习推理性能,实验显示其性能比现有工业引擎高2.28倍。
摘要
深度学习模型推理过程的加速与计算图操作符的并行化能力以及并行调度策略密切相关。大多数现有的深度学习编译器侧重于优化操作符内部的并行性,而忽视了操作符之间的并行性。此外,大多数工业推理引擎(如PyTorch和TensorFlow)使用基于数据流的模型来描述任务和调度操作符。这些引擎计算成本较高,按照拓扑顺序执行,并且仅在一个CUDA流中并行运行,因此无法充分利用多个CUDA流的并行化能力。在本文中,我们提出了PPD(Portable, Highly Parallel Dispatching System,便携式高并行调度系统)。该系统通过将计算图划分为多个基于任务流的子图来提升推理性能。PPD还包含一个在单个GPU上使用多个CUDA流的调度算法,以增强模型推理的并行性和性能。PPD为用户提供了轻量级的模型定义和C++推理接口,可以无缝集成到任何环境中。我们还在AMD和其他显卡上验证了PPD的可行性,并将其与工业推理引擎进行了比较。实验表明,PPD的性能比现有最佳方法提高了高达2.28倍。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号