S-Lop:一种基于网络竞争机制、旨在提升MPI通信准确性的性能优化模型

《Future Generation Computer Systems》:S-Lop: An accuracy-improved performance model of MPI communication based on network contention

【字体: 时间:2025年10月31日 来源:Future Generation Computer Systems 6.2

编辑推荐:

  本文提出S-Lop模型,改进τ-Lop模型以引入参数S表征网络争用,优化通信调度算法,并在Shanhe超算上验证。实验表明,SUMMA算法误差降低至1.078,优于τ-Lop的1.24,提升模型预测精度。

  MPI通信是提升高性能计算(HPC)应用性能的关键因素之一。随着计算规模不断扩大,从数千个到数百万个核心,节点间的通信效率已成为影响整体应用表现的重要变量。在这一背景下,通信性能模型的作用愈发显著。这些模型通过分析通信成本,为集体算法的优化和通信调度提供理论支持和实践指导。然而,现有的模型在对网络通信进行建模时存在一定的局限性,未能全面考虑网络争用(contention)的影响,特别是在不同通信模式下争用效应的变化。因此,本文提出了一种基于τ-Lop框架的增量式MPI性能建模方法——S-Lop模型,以更准确地捕捉网络争用现象,提升模型的预测精度。

S-Lop模型通过引入参数S,用于表征网络争用,从而对传输过程的建模进行了优化。参数S不仅考虑了节点在物理位置上的差异所带来的交换层级(switch hops)数量变化,还能够区分不同通信模式下的争用特性。这种改进使得模型在分析网络通信时更加细致,能够更好地反映实际环境中的通信行为。此外,本文还对S-Lop模型的参数测量方法进行了扩展和优化,使其能够适应不同的网络环境和拓扑结构。这种灵活性是当前高性能计算系统所必需的,因为实际部署中网络条件可能因硬件配置、软件实现和系统架构的不同而产生显著差异。

在实验验证方面,本文选择了Shanhe超算平台作为测试环境。该平台配备了Xeon 6258R处理器和Mellanox IB HDR100网络,使用Slurm作业调度系统进行管理。通过对该平台上的多种典型集体算法进行建模与测试,包括将16个进程映射到4个节点,每个节点之间通过同一交换机连接的情况,实验结果显示S-Lop模型的平均比例误差为1.062,比原有模型降低了0.137。这表明,S-Lop模型在对网络通信进行建模时具有更高的准确性。进一步地,在将256个进程映射到8个节点,每个节点与同一交换机相连,并且涉及三个交换机层级的实验中,S-Lop模型的平均比例误差为1.054,相比原有模型降低了0.115。这一结果进一步验证了S-Lop模型在复杂网络环境下的优越性。

在对SUMMA算法的并行应用进行建模时,实验覆盖了不同数据规模和进程数量的场景。结果显示,S-Lop模型的平均比例误差为1.078,比原有模型降低了0.097。SUMMA算法是一种广泛应用的矩阵乘法算法,其性能对许多科学计算任务至关重要。通过更精确地建模其通信成本,S-Lop模型不仅有助于优化该算法的执行效率,还为其他类似的并行应用提供了参考价值。

本文的研究成果表明,S-Lop模型在多个方面优于传统的τ-Lop模型。首先,它通过引入参数S,对网络争用现象进行了更全面的建模,从而提高了通信成本预测的准确性。其次,该模型在参数测量方法上进行了扩展,使其能够适应不同的网络环境和拓扑结构,增强了其在实际应用中的通用性。最后,S-Lop模型在多个实验场景中均表现出优于τ-Lop模型的性能,这说明它在处理复杂通信任务时具有更强的适应性和预测能力。

在当前的高性能计算系统中,网络拓扑结构对通信效率的影响不容忽视。常见的网络拓扑包括3D-Torus、Dragonfly和Fat-Tree等。其中,Fat-Tree架构因其非阻塞特性、良好的可扩展性和出色的负载均衡能力而受到广泛青睐。它通过分层交换机设计和动态带宽分配,有效缓解了传统树状网络中根节点的瓶颈问题。因此,Fat-Tree成为基于InfiniBand网络的集群系统的首选拓扑结构。然而,尽管Fat-Tree架构在物理层面具有诸多优势,但在实际通信建模中,仍然需要考虑网络争用和交换层级对通信成本的影响。这正是S-Lop模型的核心改进点之一。

传统的通信性能模型通常分为硬件中心模型和软件中心模型两大类。硬件中心模型,如Hockney和LogP,主要依赖于物理网络参数,如延迟和带宽,来表征通信成本。虽然这些模型在早期具有一定的适用性,但随着HPC系统的不断发展,它们在处理中间件开销和并发通信中的争用效应方面显得力不从心。相比之下,软件中心模型如τ-Lop,通过引入中间件感知的抽象,更注重通信模式和网络拓扑对性能的影响。这些模型在一定程度上牺牲了对低层网络细节的刻画,但换来了更高的可移植性和更贴近实际应用的建模精度。

S-Lop模型正是基于τ-Lop框架进行扩展和优化的软件中心模型。它不仅保留了τ-Lop模型在建模通信过程中的优势,还通过引入参数S,进一步提升了对网络争用的建模能力。在模型构建过程中,S-Lop通过考虑交换层级的数量和不同通信模式下的争用特征,使得模型能够更准确地反映实际通信环境中的复杂情况。这种改进使得S-Lop模型在预测通信成本时更加可靠,为算法设计和系统优化提供了有力支持。

在实验设计上,本文选取了多个典型场景进行测试,以验证S-Lop模型的有效性。例如,在将16个进程映射到4个节点的实验中,每个节点之间通过同一交换机连接,从而模拟了实际环境中可能存在的通信争用情况。实验结果显示,S-Lop模型在不同数据规模下的平均比例误差为1.062,相比原有模型显著降低。这一结果表明,S-Lop模型在处理此类场景时具有更高的预测精度。

此外,在将256个进程映射到8个节点的实验中,每个节点与同一交换机相连,并且涉及三个交换机层级。这种复杂的网络拓扑结构在实际HPC系统中并不少见,尤其是在大规模集群中。实验结果表明,S-Lop模型在这一场景下的平均比例误差为1.054,相比原有模型降低了0.115。这说明,S-Lop模型在面对多层次网络结构时依然能够保持较高的建模精度,为系统优化提供了更全面的依据。

在对SUMMA算法的建模实验中,本文进一步验证了S-Lop模型在复杂并行计算任务中的适用性。SUMMA算法作为一种高效的矩阵乘法并行算法,其通信成本对整体性能有着重要影响。通过在不同数据规模和进程数量下进行实验,S-Lop模型的平均比例误差为1.078,相比原有模型降低了0.097。这一结果不仅表明S-Lop模型在该算法上的建模能力优于τ-Lop模型,也说明它在实际应用中的适应性更强。

综上所述,S-Lop模型通过引入参数S,对网络争用现象进行了更细致的刻画,从而提升了通信性能建模的精度。它不仅能够适应不同的网络环境和拓扑结构,还在多个实验场景中表现出优于传统模型的性能。这些优势使得S-Lop模型成为当前HPC系统中通信性能建模的重要工具,为算法优化和系统配置提供了更可靠的理论基础和实践指导。随着高性能计算需求的不断增长,S-Lop模型的提出和应用无疑将对提升系统整体性能产生深远影响。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号