
-
生物通官微
陪你抓住生命科技
跳动的脉搏
探索RISC-V长向量架构在地球科学中的性能优化与跨平台应用研究
【字体: 大 中 小 】 时间:2025年06月06日 来源:Future Generation Computer Systems 6.2
编辑推荐:
本研究针对地球科学计算代码(SeisSol和MiniFALL3D)在RISC-V长向量处理器上的性能瓶颈,通过优化批处理GEMM实现和代码向量化改造,在EPAC架构上分别实现32.6×和6.32×加速。研究成果验证了RISC-V向量扩展(RVV)在HPC领域的潜力,同时证明优化方案在Intel Sapphire Rapids(AVX-512)和NEC SX-Aurora等异构平台均具普适性,为科学计算代码的跨架构移植提供重要范式。
随着RISC-V开源指令集架构在高性能计算(HPC)领域的崛起,其向量扩展(RVV)为科学计算提供了新的可能性。然而,地球科学领域的关键应用如地震模拟(SeisSol)和火山灰扩散模型(FALL3D)通常基于传统x86架构开发,如何在不牺牲代码可移植性的前提下充分发挥RISC-V长向量架构优势成为关键挑战。欧洲处理器计划(EPI)开发的EPAC加速器采用RVV 1.0标准,其向量处理单元(VPU)可同时处理256个双精度元素,为科学计算提供了极端设计点的硬件平台。
由西班牙CSIC协调的ChEESE卓越中心团队针对这一问题展开研究。研究人员选取SeisSol的ADER-DG算法核心和MiniFALL3D大气传输模型作为典型案例,通过编译指导优化和代码重构,在EPAC平台上实现了显著性能提升。相关成果发表于《Future Generation Computer Systems》,为RISC-V在科学计算领域的应用提供了重要实践参考。
研究主要采用三种技术方法:1)基于软件模拟器(gem5)和硬件原型(EPAC)的跨平台性能分析;2)针对矩阵运算的批处理GEMM优化,利用编译时矩阵大小确定和跨步内存访问;3)通过函数子程序化改造和多维数组扁平化提升自动向量化比率。测试数据来自MareNostrum 4(Intel Sapphire Rapids)和NEC SX-Aurora Tsubasa等对比平台。
SeisSol的GEMM优化
通过将小型矩阵乘法重组为批处理操作,研究人员开发出RVV友好的GEMM实现。该方案利用指令级并行(ILP)和寄存器分组技术,在EPAC上实现32.6倍于OpenBLAS的性能。优化后的代码在AVX-512平台同样展现加速效果,证明其跨架构适用性。
MiniFALL3D的向量化改造
针对原代码向量混合比(Vector Mix)仅0.36%的问题,研究团队通过函数内联展开和数组访问模式优化,将关键指标提升至7.94%。伴随向量活动率(Vector Activity)从9.05%增至72.4%,EPAC平台获得6.32倍加速。特别值得注意的是,将pow()函数替换为显式乘法操作显著减少了向量化阻碍。
跨架构性能分析
在Intel Sapphire Rapids(AVX-512)平台,优化后的SeisSol性能提升2.1倍,MiniFALL3D加速1.8倍;NEC SX-Aurora向量处理器上则分别实现3.4倍和2.7倍加速。这一结果证实,针对RISC-V长向量架构的优化策略可普适于不同向量长度的HPC系统。
研究结论指出,RISC-V向量架构通过长度无关编程模型(类似Arm SVE)有效解决了传统SIMD架构的代码碎片化问题。Fabio Banchelli等作者强调,依赖编译器自动向量化而非硬件特定内联函数(intrinsic)的策略,既能保持代码可移植性,又能充分发挥不同平台的向量处理能力。这项工作不仅为地球科学代码的架构迁移提供实践指南,更验证了RISC-V作为HPC异构计算组件的可行性。随着EuroHPC联合项目持续推进,EPAC等RISC-V加速器有望在E级计算时代扮演重要角色。
生物通微信公众号
知名企业招聘