S-Lop：一种基于网络竞争机制、旨在提升MPI通信准确性的性能优化模型

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Future Generation Computer Systems》：S-Lop: An accuracy-improved performance model of MPI communication based on network contention

【字体：大中小】 时间：2025年10月31日 来源：Future Generation Computer Systems 6.2

编辑推荐：

　　本文提出S-Lop模型，改进τ-Lop模型以引入参数S表征网络争用，优化通信调度算法，并在Shanhe超算上验证。实验表明，SUMMA算法误差降低至1.078，优于τ-Lop的1.24，提升模型预测精度。

　　MPI通信是提升高性能计算（HPC）应用性能的关键因素之一。随着计算规模不断扩大，从数千个到数百万个核心，节点间的通信效率已成为影响整体应用表现的重要变量。在这一背景下，通信性能模型的作用愈发显著。这些模型通过分析通信成本，为集体算法的优化和通信调度提供理论支持和实践指导。然而，现有的模型在对网络通信进行建模时存在一定的局限性，未能全面考虑网络争用（contention）的影响，特别是在不同通信模式下争用效应的变化。因此，本文提出了一种基于τ-Lop框架的增量式MPI性能建模方法——S-Lop模型，以更准确地捕捉网络争用现象，提升模型的预测精度。

S-Lop模型通过引入参数S，用于表征网络争用，从而对传输过程的建模进行了优化。参数S不仅考虑了节点在物理位置上的差异所带来的交换层级（switch hops）数量变化，还能够区分不同通信模式下的争用特性。这种改进使得模型在分析网络通信时更加细致，能够更好地反映实际环境中的通信行为。此外，本文还对S-Lop模型的参数测量方法进行了扩展和优化，使其能够适应不同的网络环境和拓扑结构。这种灵活性是当前高性能计算系统所必需的，因为实际部署中网络条件可能因硬件配置、软件实现和系统架构的不同而产生显著差异。

在实验验证方面，本文选择了Shanhe超算平台作为测试环境。该平台配备了Xeon 6258R处理器和Mellanox IB HDR100网络，使用Slurm作业调度系统进行管理。通过对该平台上的多种典型集体算法进行建模与测试，包括将16个进程映射到4个节点，每个节点之间通过同一交换机连接的情况，实验结果显示S-Lop模型的平均比例误差为1.062，比原有模型降低了0.137。这表明，S-Lop模型在对网络通信进行建模时具有更高的准确性。进一步地，在将256个进程映射到8个节点，每个节点与同一交换机相连，并且涉及三个交换机层级的实验中，S-Lop模型的平均比例误差为1.054，相比原有模型降低了0.115。这一结果进一步验证了S-Lop模型在复杂网络环境下的优越性。

在对SUMMA算法的并行应用进行建模时，实验覆盖了不同数据规模和进程数量的场景。结果显示，S-Lop模型的平均比例误差为1.078，比原有模型降低了0.097。SUMMA算法是一种广泛应用的矩阵乘法算法，其性能对许多科学计算任务至关重要。通过更精确地建模其通信成本，S-Lop模型不仅有助于优化该算法的执行效率，还为其他类似的并行应用提供了参考价值。

本文的研究成果表明，S-Lop模型在多个方面优于传统的τ-Lop模型。首先，它通过引入参数S，对网络争用现象进行了更全面的建模，从而提高了通信成本预测的准确性。其次，该模型在参数测量方法上进行了扩展，使其能够适应不同的网络环境和拓扑结构，增强了其在实际应用中的通用性。最后，S-Lop模型在多个实验场景中均表现出优于τ-Lop模型的性能，这说明它在处理复杂通信任务时具有更强的适应性和预测能力。

在当前的高性能计算系统中，网络拓扑结构对通信效率的影响不容忽视。常见的网络拓扑包括3D-Torus、Dragonfly和Fat-Tree等。其中，Fat-Tree架构因其非阻塞特性、良好的可扩展性和出色的负载均衡能力而受到广泛青睐。它通过分层交换机设计和动态带宽分配，有效缓解了传统树状网络中根节点的瓶颈问题。因此，Fat-Tree成为基于InfiniBand网络的集群系统的首选拓扑结构。然而，尽管Fat-Tree架构在物理层面具有诸多优势，但在实际通信建模中，仍然需要考虑网络争用和交换层级对通信成本的影响。这正是S-Lop模型的核心改进点之一。

传统的通信性能模型通常分为硬件中心模型和软件中心模型两大类。硬件中心模型，如Hockney和LogP，主要依赖于物理网络参数，如延迟和带宽，来表征通信成本。虽然这些模型在早期具有一定的适用性，但随着HPC系统的不断发展，它们在处理中间件开销和并发通信中的争用效应方面显得力不从心。相比之下，软件中心模型如τ-Lop，通过引入中间件感知的抽象，更注重通信模式和网络拓扑对性能的影响。这些模型在一定程度上牺牲了对低层网络细节的刻画，但换来了更高的可移植性和更贴近实际应用的建模精度。

S-Lop模型正是基于τ-Lop框架进行扩展和优化的软件中心模型。它不仅保留了τ-Lop模型在建模通信过程中的优势，还通过引入参数S，进一步提升了对网络争用的建模能力。在模型构建过程中，S-Lop通过考虑交换层级的数量和不同通信模式下的争用特征，使得模型能够更准确地反映实际通信环境中的复杂情况。这种改进使得S-Lop模型在预测通信成本时更加可靠，为算法设计和系统优化提供了有力支持。

在实验设计上，本文选取了多个典型场景进行测试，以验证S-Lop模型的有效性。例如，在将16个进程映射到4个节点的实验中，每个节点之间通过同一交换机连接，从而模拟了实际环境中可能存在的通信争用情况。实验结果显示，S-Lop模型在不同数据规模下的平均比例误差为1.062，相比原有模型显著降低。这一结果表明，S-Lop模型在处理此类场景时具有更高的预测精度。

此外，在将256个进程映射到8个节点的实验中，每个节点与同一交换机相连，并且涉及三个交换机层级。这种复杂的网络拓扑结构在实际HPC系统中并不少见，尤其是在大规模集群中。实验结果表明，S-Lop模型在这一场景下的平均比例误差为1.054，相比原有模型降低了0.115。这说明，S-Lop模型在面对多层次网络结构时依然能够保持较高的建模精度，为系统优化提供了更全面的依据。

在对SUMMA算法的建模实验中，本文进一步验证了S-Lop模型在复杂并行计算任务中的适用性。SUMMA算法作为一种高效的矩阵乘法并行算法，其通信成本对整体性能有着重要影响。通过在不同数据规模和进程数量下进行实验，S-Lop模型的平均比例误差为1.078，相比原有模型降低了0.097。这一结果不仅表明S-Lop模型在该算法上的建模能力优于τ-Lop模型，也说明它在实际应用中的适应性更强。

综上所述，S-Lop模型通过引入参数S，对网络争用现象进行了更细致的刻画，从而提升了通信性能建模的精度。它不仅能够适应不同的网络环境和拓扑结构，还在多个实验场景中表现出优于传统模型的性能。这些优势使得S-Lop模型成为当前HPC系统中通信性能建模的重要工具，为算法优化和系统配置提供了更可靠的理论基础和实践指导。随着高性能计算需求的不断增长，S-Lop模型的提出和应用无疑将对提升系统整体性能产生深远影响。

联系信箱：

粤ICP备09063491号

热点排行