PPD：一种用于深度学习的便携式且高度并行的调度系统

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Design Automation of Electronic Systems》：PPD: A Portable and Highly Parallel Dispatching System for Deep Learning

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Design Automation of Electronic Systems

编辑推荐：

　　本文提出PPD并行调度系统，通过将计算图划分为多任务流子图并利用多CUDA流并行优化，提升深度学习推理性能，实验显示其性能比现有工业引擎高2.28倍。

摘要

深度学习模型推理过程的加速与计算图操作符的并行化能力以及并行调度策略密切相关。大多数现有的深度学习编译器侧重于优化操作符内部的并行性，而忽视了操作符之间的并行性。此外，大多数工业推理引擎（如PyTorch和TensorFlow）使用基于数据流的模型来描述任务和调度操作符。这些引擎计算成本较高，按照拓扑顺序执行，并且仅在一个CUDA流中并行运行，因此无法充分利用多个CUDA流的并行化能力。在本文中，我们提出了PPD（Portable, Highly Parallel Dispatching System，便携式高并行调度系统）。该系统通过将计算图划分为多个基于任务流的子图来提升推理性能。PPD还包含一个在单个GPU上使用多个CUDA流的调度算法，以增强模型推理的并行性和性能。PPD为用户提供了轻量级的模型定义和C++推理接口，可以无缝集成到任何环境中。我们还在AMD和其他显卡上验证了PPD的可行性，并将其与工业推理引擎进行了比较。实验表明，PPD的性能比现有最佳方法提高了高达2.28倍。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号