在分布式深度学习中，通过近似AllReduce算法最大化计算与通信的重叠部分

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Future Generation Computer Systems》：Maximizing the Computation-Communication Overlap for Distributed Deep Learning With Approximate AllReduce

【字体：大中小】 时间：2026年03月29日 来源：Future Generation Computer Systems 6.2

编辑推荐：

　　数据并行分布式深度学习中，针对Ring-AllReduce和HD-AllReduce架构设计自适应量化通信方案AQAT，通过动态调整量化率优化计算与通信重叠（CCO），提升模型同步效率。

罗守熙|唐高林|刘雪|邢焕来

中国西南交通大学计算机与人工智能学院，成都，611756

摘要

众所周知，数据并行分布式深度学习（DDL）需要具备计算-通信重叠（CCO）感知的通信优化能力。最近的研究成果AQGB（自适应量化梯度广播）不仅提出了ROW指标（即“重叠时间与等待时间的比率”）来量化优化机会，还为此设计了一种基于CCO感知的自适应量化梯度同步方案。尽管AQGB效率较高，但它适用于训练节点通过直接广播同步梯度的情况，因此无法支持依赖Ring-AllReduce和Halving Doubling（HD）-AllReduce进行梯度同步的数据并行DL工作任务。

为了解决这一问题，本文分析了基于Ring-AllReduce和HD-AllReduce的工作流程下的量化CCO优化空间，并提出了AQAT（自适应量化AllReduce传输）方案。AQAT试图在尊重训练进度和节点网络状态的前提下，以最佳努力方式动态提升梯度量化的质量。其核心是根据ReduceScatter和AllGather各步骤涉及的数据量，为它们分配预估的可重叠时间，然后根据实际传输速率和剩余的可重叠时间动态调整ReduceScatter各步骤的量化速率，同时保持AllGather各步骤使用相同的量化速率，以确保所有节点最终获得相同的结果版本。对比实验表明，AQAT能够有效利用可用带宽加速数据并行DDL的模型同步，而不会过度量化。

引言

目前，先进的深度学习模型被广泛应用于计算机视觉、自然语言处理以及各种趋势预测等领域[1]、[2]。为了利用大量数据在合理时间内高效训练这些深度神经网络模型，实践中广泛采用了数据并行分布式深度学习（DDL）[1]。在训练过程中，节点需要在进入下一轮训练之前同步它们本地获取的结果（例如梯度）[3]、[4]、[5]、[6]、[7]。随着训练规模和模型规模的扩大，用于同步模型参数的通信过程可能受到带宽限制，从而减慢整个训练速度，成为系统的性能瓶颈[8]、[9]、[10]。

为了解决这一问题，提出了许多优化设计，包括数据压缩、张量融合和通信调度[11]。我们认为，梯度量化是一种有前景的方案，可以缓解通信瓶颈[3]、[12]：由于深度神经网络（DNN）是逐层训练的，通过重新安排不同层的张量传输顺序来覆盖计算通信（即通信调度中的重叠部分），可以部分隐藏通信开销[3]、[10]、[13]；对于无法隐藏的部分，直接量化梯度值以减少数据传输量（即数据压缩）是一种有效的优化方法。采用这些设计后，可以缓解同步通信的瓶颈效应，从而加速训练迭代[14]。

例如，最近的研究成果AQGB（自适应量化梯度广播）[3]、[15]通过提出一种自适应量化梯度广播方案，展示了这种设计的好处。为了减轻有损梯度压缩的副作用，AQGB提出了ROW指标（重叠时间与等待时间的比率）来量化计算-通信重叠（CCO）的质量；在运行时，它会根据可用网络带宽和训练进度调整量化级别（即量化速率），从而实现CCO的优化，而不会过度量化梯度。

尽管AQGB具有灵活性和强大的功能，但它适用于训练节点通过直接广播同步梯度的情况。然而，实际上，许多分布式训练任务可能采用Ring-AllReduce和Halving Doubling（HD）-AllReduce等方案来实现梯度同步[16]、[17]。与直接广播相比，Ring-AllReduce和HD-AllReduce的工作流程有很大不同，这对梯度量化的设计和控制提出了新的要求。一方面，Ring-AllReduce和HD-AllReduce的执行都涉及ReduceScatter和AllGather两个阶段，它们具有不同的量化标准；另一方面，它们的ReduceScatter和AllGather操作会经历多个阶段，节点在每个阶段的通信需求也可能发生变化。因此，如何为基于Ring-AllReduce和HD-AllReduce的数据并行DDL实现自适应量化梯度通信方案是一个有趣且重要的未解决问题。

为了解决这一问题，本文提出了AQAT（自适应量化AllReduce传输），一种适用于Ring-AllReduce和HD-AllReduce的自适应量化梯度同步方案。需要注意的是，许多最新研究[3]、[18]、[19]、[20]指出，在分布式深度学习任务中，模型在不同量化级别下的收敛行为和准确性受多种因素和超参数配置的影响。因此，这些效应具有很强的任务特异性，在实践中很难准确描述。因此，与AQGB类似，AQAT也试图在尊重训练进度和节点网络状态的前提下，以最佳努力方式动态提升梯度量化的质量。不过，与AQGB不同的是，AQAT涉及ReduceScatter和AllGather两个阶段：它根据ReduceScatter和AllGather各步骤涉及的数据量分配预估的可重叠时间，然后根据实际传输速率和剩余的可重叠时间动态调整ReduceScatter各步骤的量化速率，同时保持AllGather各步骤使用相同的量化速率，以确保所有节点最终获得相同的结果版本。AQAT还优化了数据包编码，优先封装更重要的梯度信息，以支持多级量化。

对比实验表明，与传统基于固定梯度量化的通信方案相比，AQAT能够通过动态优化梯度量化级别来有效利用可用带宽，加速模型同步。此外，我们的结果再次验证了ROW指标（重叠时间与等待时间的比率）是评估CCO优化的优秀指标。

总结来说，我们的主要贡献有三点：

•

我们分析了基于Ring-AllReduce和HD-AllReduce等集体操作的梯度同步中CCO（计算-通信重叠）的优化空间，并采用了自适应梯度量化（第3节）。

•

我们设计了AQAT，一种自适应量化梯度通信方案，包括多级量化方案和灵活的量化速率控制方案，用于优化基于Ring-AllReduce和HD-AllReduce的数据并行DDL（第4节）。

•

我们进行了广泛的细粒度仿真研究，验证了AQAT设计的有效性（第5节）。

在本文的其余部分，我们首先在第2节概述相关背景和动机，然后在第3节分析设计空间，并在第4节详细介绍AQAT的设计细节。之后，在第5节评估其性能，最后在第6节总结本文并讨论可能的未来工作。

章节片段

背景与动机

在本节中，我们首先在第2.1节介绍数据并行DDL的通信模式，在第2.2节介绍量化通信优化的概念。然后，我们在第2.3节概述了自适应量化对数据并行DDL工作负载的CCO优化的重要性，以及[3]提出的ROW指标。最后，我们总结了实现Ring-AllReduce和HD-AllReduce的CCO感知自适应量化通信的设计挑战

问题分析

实际上，AllReduce有多种实现方案[4]、[18]、[19]、[32]。对于Ring-AllReduce（简称Ring）和HD-AllReduce（简称HD）等方案，它们的执行可以分为ReduceScatter和AllGather两个阶段。如图2所示，在ReduceScatter阶段，节点聚合它们的向量并在彼此之间分配结果；然后在AllGather阶段，节点收集缺失的部分以获得完整的结果。

AllReduce的自适应量化

在本节中，我们将详细解释AQAT如何为Ring-AllReduce和HD-AllReduce实现自适应梯度量化。为此，我们首先在第4.1节概述AQAT的设计，然后在第4.2节介绍其多级梯度量化设计，最后在第4.3节介绍其动态量化速率控制算法。

与AQGB不同，AQGB通过两阶段控制算法优化直接广播场景下的ROW-based通信效率

性能评估

为了评估AQAT的性能，我们像最近的研究[3]、[40]一样，使用Python 3开发了一个离散事件模拟器。对比实验表明，与传统的固定梯度量化通信方案相比，AQAT能够有效利用可用带宽加速基于Ring-AllReduce和HD-AllReduce的模型同步。此外，我们再次确认ROW指标是一个优秀的评估指标

结论与未来工作

在本文中，我们设计了AQAT，一种自适应量化梯度通信方案，包括多级量化方案和灵活的量化速率控制方案，适用于Ring-AllReduce和HD-AllReduce。根据Ring-AllReduce和HD-AllReduce的特点，AQAT根据节点的训练进度和它们之间的连接带宽调整量化级别。AQAT不仅兼容错误补偿设计，而且

CRediT作者贡献声明

罗守熙：撰写 – 审稿与编辑，撰写 – 原稿，监督，资源管理，项目管理，方法论，资金获取，概念化。唐高林：撰写 – 审稿与编辑，撰写 – 原稿。刘雪：撰写 – 原稿，可视化，软件开发，方法论，调查，形式分析，数据整理。邢焕来：撰写 – 审稿与编辑。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言