在SW39000片上异构多核处理器上,针对海冰模型动态EVP模型的内存访问优化
《Future Generation Computer Systems》:Memory access optimization for the dynamics EVP model of the sea ice model on the SW39000 on-chip heterogeneous many-core processor
【字体:
大
中
小
】
时间:2025年08月08日
来源:Future Generation Computer Systems 6.2
编辑推荐:
海冰模型EVP在SW39000异构处理器上的优化研究提出数据差异化处理、概率密度DMA压缩和RMA算子融合算法,实验显示gx3网格下单核加速27.54倍,10核组效率达70%。
本文探讨了在新型曙光超级计算机所采用的SW39000异构多核处理器上,对Community Ice Code(CICE)中的弹性-粘性-塑性(EVP)动力学模型进行性能优化的方法。研究的主要目标是提升在异构计算环境中,海冰模型在Community Earth System Model(CESM)中的运行效率。SW39000处理器具有复杂的芯片异构架构、多级内存层次结构以及独特的核间通信机制,这些特性为海冰动力学模拟的并行优化带来了挑战。因此,本文提出了一系列优化策略,以解决由数据访问模式多样性和稀疏性导致的低效问题,并提升模型在多核环境下的计算性能。
海冰是地球气候系统中的关键组成部分,对全球气候调节起着重要作用。其高反射率有效地反射太阳辐射,有助于维持地球的辐射能量平衡。此外,作为海洋与大气之间的隔热屏障,海冰显著抑制了垂直方向上的热量和水分交换。海冰的形成和融化改变了上层海洋的盐度结构,从而影响极地气候和大气环流模式。过去四十年,北极海冰的快速减少凸显了气候系统对外部强迫的敏感性。深入研究海冰动力学对于理解气候变化机制、预测未来趋势以及为政策制定、生态保护和极地活动提供科学支持至关重要。因此,提高海冰模型在并行计算平台上的计算效率成为气候建模领域的重要研究课题。
目前主流的海冰模型包括Regional Ocean Modeling System(ROMS)的海冰模块、由洛斯阿拉莫斯国家实验室开发的Community Ice Code(CICE)、Pan-Arctic Ice Ocean Modeling and Assimilation System(PIOMAS)的海冰组件,以及中国科学院地球系统模型(CAS-ESM)中的海冰模型。其中,CICE因其对海冰物理过程的全面表示而广泛应用于气候模拟。然而,基于有限差分网格的海冰模型,如CICE,面临显著的计算复杂性问题。在大规模模拟中,这一问题尤为突出,导致计算时间和资源消耗成为主要瓶颈。为了解决这些挑战,许多研究人员将注意力转向性能优化,探索各种方法以提高海冰模拟的准确性和效率。
在热力学领域,Wang等人提出了基于最大熵原理的表面湍流热通量模型,用于改进海冰模型中的体积通量算法参数化,为计算大气与海冰之间的热交换提供了新方法。Yu等人指出,海冰的微观特征,如气泡和颗粒,显著影响海冰厚度模拟的准确性。增强这些参数的表示可以大幅提高厚度预测的可靠性。Wang等人对各种融雪池参数化方案进行了详细比较,分析了它们的特征和差异。Lu和Wang开发了用于融雪池参数化建模的伴随模型(Adjoint Model, ADM),提高了对融雪池相关参数的估计效果,降低了融雪池覆盖模拟的误差。Zhang等人比较了传统体积通量方法与基于最大熵原理的算法在海冰表面湍流热通量模拟中的应用,探讨了不同算法对海冰模拟准确性的影响,并改进了感热和潜热通量的表示。
在动力学领域,Dukowicz和Baumgardner提出了增量重映射算法,用于运输和对流过程,为材料运输和对流计算提供了新思路。为了应对标准粘性-塑性(Viscous-Plastic, VP)流变模型由于强非线性导致的低计算效率,Hunke等人引入了弹性项以分离本构方程,开发了弹性-粘性-塑性(Elastic-Viscous-Plastic, EVP)模型,显著降低了海冰模拟的计算成本。Wilchinsky和Feltham开发了早期的各向异性流变模型,为后来Tsamados等人提出的弹性-各向异性-塑性(Elastic-Anisotropic-Plastic, EAP)模型奠定了基础。EAP模型能够捕捉到海冰覆盖中观察到的亚连续各向异性特征。Wang等人还发现,海冰厚度影响模型的热力学和动力学过程。
尽管在提高海冰模型的模拟精度和计算效率方面取得了显著进展,但在高度并行计算环境中仍面临挑战。特别是,海冰模型中数据分布的不连续性常常导致并行效率低下,亟需解决。虽然已有针对海冰模型在曙光平台上的并行化研究,如Craig等人、Feng等人以及Li等人对海冰模型在超级计算机上的性能评估和优化,但针对EVP流变模型,即CICE海冰动力学的核心部分,仍缺乏有效的并行化策略。由于EVP模型不仅是CICE的动力学核心,也广泛应用于其他海洋模型,因此其并行优化具有重要意义。
SW39000处理器是部署在新型曙光超级计算机平台上的异构多核处理器,其特点是采用异构多核架构,将芯片上的计算阵列与分布式共享内存相结合。在硬件层面,该处理器由6个核心组(Core Groups, CGs)组成。每个CG包含1个管理处理单元(Management Processing Element, MPE)、一个由64个计算处理单元(Computing Processing Elements, CPEs)组成的阵列,以及一个内存控制器(Memory Controller, MC),运行频率可达2.1 GHz。通过这种配置,该处理器总共包含390个核心(6 × 64 + 6 = 390)。
在将EVP模型移植到SW39000处理器的过程中,研究面临两个主要挑战:(1)如何解决由数据访问模式的多样性和稀疏性导致的内存带宽利用率低和负载不均衡问题;(2)如何减少由于数据依赖性引起的主从核之间的频繁内存访问。为了解决这些问题,本文提出了针对EVP模型的第一套实现和优化方案。主要贡献包括以下几个方面:
首先,针对EVP模型中数据类型的多样性,提出了一种针对海冰模型的数据差异化处理策略。该策略旨在优化数据读取和写入过程,减少不必要的数据传输,提高整体运行效率。
其次,为了解决由数据稀疏性导致的内存带宽利用率低和负载不均衡问题,开发了一种基于直接内存访问(DMA)的数据压缩方法。该方法利用数据概率密度估计技术,对数据进行动态压缩,从而减少通信量,提升模型在从核上的计算负载平衡。
再次,为了解决由于数据依赖性引起的主从核之间的频繁通信问题,引入了一种基于远程内存访问(RMA)通信的跨操作符数据缓存算法。该算法能够在操作符之间实现高效的数据缓存和传输,减少主从核之间的交互频率,提高整体计算效率。
最后,本文在新型曙光平台上的实验结果表明,优化后的EVP模型在标准gx3网格配置下,单核组运行时的加速比达到27.54倍,使用10个核组时的并行效率高达70%,显示出显著的负载平衡改进。实验数据表明,所提出的优化策略在提升模型性能方面具有明显效果。
通过上述优化措施,本文不仅提升了海冰模型在异构多核处理器上的计算效率,还增强了模型在大规模并行环境下的适用性。这些优化策略为海冰动力学模拟提供了新的思路,并有助于进一步推动气候建模领域的研究进展。同时,本文的研究成果也为其他海洋模型在异构计算平台上的优化提供了参考价值。
此外,本文还对SW39000处理器的计算架构进行了概述,分析了其在海冰动力学模拟中的应用潜力。该处理器的异构架构和多级内存层次结构为数据并行处理提供了良好的支持,而其独特的核间通信机制则有助于减少主从核之间的数据传输开销。通过合理分配计算任务,可以充分利用CPE阵列的计算能力,同时实现计算负载的均衡分配。
在对EVP模型进行并行化处理时,需要特别关注其计算过程中的数据依赖性问题。由于每个子循环迭代都需要边界更新操作,而边界更新通常涉及与其他核心组的数据通信,因此在并行化过程中,需要尽可能减少主从核之间的频繁交互。本文提出的数据差异化处理策略和跨操作符数据缓存算法,有效缓解了这一问题,提高了模型的并行效率。
通过实验测试,本文验证了所提出的优化策略的有效性。测试平台为SW39000异构多核处理器,其主核频率为2.1 GHz,协处理器频率为2.25 GHz,内存容量为16 GB,使用的是基于曙光架构的swgcc编译器。测试采用的网格为常用的gx3网格,使用的海冰模型版本为CICE v5.1,模拟时间为一个月,时间步长为一小时。实验结果表明,优化后的EVP模型在单核组运行时的加速比达到27.54倍,而在10核组运行时的并行效率高达70%,显示出显著的性能提升和负载平衡改善。
综上所述,本文的研究成果为海冰模型在异构多核处理器上的优化提供了重要的参考价值。通过合理的数据处理策略和通信机制优化,不仅提高了模型的计算效率,还增强了其在大规模并行环境下的适用性。这些优化措施为气候建模领域的研究提供了新的思路,并有助于进一步推动海冰动力学模拟的计算性能提升。同时,本文的研究也为其他海洋模型在异构计算平台上的优化提供了借鉴。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号