适用于Dragonfly网络的结构感知交错全归约(Topology-Aware Interleaved All-Reduce)通信机制

《IEEE Transactions on Networking》:Topology-Aware Interleaved All-Reduce Communication for Dragonfly Network

【字体: 时间:2025年11月19日 来源:IEEE Transactions on Networking

编辑推荐:

  分布式深度学习中,现有all-reduce算法在Dragonfly网络拓扑下存在带宽闲置问题。本文提出拓扑感知交错all-reduce算法(TIAD),通过优化 intra-/inter-group 交错通信机制和带宽利用率分配,在多种节点规模与网络带宽条件下实现最短通信时间。实验表明TIAD较PAARD算法减少23.4%通信时间,尤其在数据收集阶段成效显著。

  

摘要:

在分布式深度学习的背景下,计算集群更加注重静态的全归约(all-reduce)通信延迟,同时也需要支持大规模网络。然而,当前全归约算法在专用网络拓扑中的通信效率仍有提升空间。现有的全归约通信算法未能充分利用集群带宽,导致大量带宽资源被闲置。为了充分利用可用带宽,优化通信算法变得至关重要。为了解决这个问题,我们提出了一种创新方法:一种针对Dragonfly网络的自适应拓扑交织全归约算法(TIAD)。TIAD利用Dragonfly网络的内在特性,采用交织通信机制进行组内和组间数据收集,显著提高了通信效率。此外,我们对Dragonfly网络进行了少量调整,使其与交织通信的理论结构相匹配。我们还提出了一种补充TIAD算法的全归约通信方法,适用于Dragonfly网络中仅有一部分节点参与通信任务的情况。实验表明,TIAD在各种节点规模和带宽条件下均实现了最短的通信时间。与PAARD算法相比,我们的算法在数据收集通信阶段将通信时间缩短了高达23.4%。

引言

人工智能(AI)技术的迅速发展和广泛应用[3]、[16]、[21]、[40]使得许多任务得以实现自动化,包括自动驾驶[37]、强化学习[46]、天气预报[35]以及复杂数学公式的求解[38]、[45]。那些具有高计算复杂性的任务,如大型语言模型训练[15]和动态推导建模[10],需要高性能计算集群来提供强大的计算能力[39]。与包含有限数量计算节点的小型集群相比,高性能计算集群通常由数百个节点组成。因此,这些集群需要特定的数据通信策略和物理拓扑结构来优化训练效率。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号