
-
生物通官微
陪你抓住生命科技
跳动的脉搏
适用于Dragonfly网络的结构感知交错全归约(Topology-Aware Interleaved All-Reduce)通信机制
《IEEE Transactions on Networking》:Topology-Aware Interleaved All-Reduce Communication for Dragonfly Network
【字体: 大 中 小 】 时间:2025年11月19日 来源:IEEE Transactions on Networking
编辑推荐:
分布式深度学习中,现有all-reduce算法在Dragonfly网络拓扑下存在带宽闲置问题。本文提出拓扑感知交错all-reduce算法(TIAD),通过优化 intra-/inter-group 交错通信机制和带宽利用率分配,在多种节点规模与网络带宽条件下实现最短通信时间。实验表明TIAD较PAARD算法减少23.4%通信时间,尤其在数据收集阶段成效显著。
人工智能(AI)技术的迅速发展和广泛应用[3]、[16]、[21]、[40]使得许多任务得以实现自动化,包括自动驾驶[37]、强化学习[46]、天气预报[35]以及复杂数学公式的求解[38]、[45]。那些具有高计算复杂性的任务,如大型语言模型训练[15]和动态推导建模[10],需要高性能计算集群来提供强大的计算能力[39]。与包含有限数量计算节点的小型集群相比,高性能计算集群通常由数百个节点组成。因此,这些集群需要特定的数据通信策略和物理拓扑结构来优化训练效率。
生物通微信公众号
知名企业招聘