GPUDirectIO:简化从NVMe到GPU的CFD输入/输出路径,以实现高性能模拟

《IEEE Transactions on Parallel and Distributed Systems》:GPUDirectIO: Streamline the CFD I/O Path From NVMe to GPU for High-Performance Simulations

【字体: 时间:2025年11月19日 来源:IEEE Transactions on Parallel and Distributed Systems 6

编辑推荐:

  GPU加速流体动力学(CFD)计算中存在数据传输效率低的问题,本研究提出GPUDirectIO框架,通过重构数据映射层(DML)和CGNS文件格式,结合GPU Direct Storage(GDS)和NVMe存储阵列,实现GPU与存储设备间的直接数据传输。实验表明,单线程场景下读写速度分别提升2.95倍和3.49倍,传输延迟降低59%;多线程分布式存储场景下,速度提升至3.23倍和4.68倍,延迟减少39%,同时验证了系统在强/弱可扩展性测试中的优异性能。

  

摘要:

由于异构计算技术和高保真数值方法的推动,计算流体动力学(CFD)领域取得了最新进展,这显著增加了对高效输入/输出(I/O)操作的需求。在基于GPU加速的CFD中,由于数据在内存和存储之间的传输复杂性增加,冗余数据复制和过高的CPU开销成为了影响I/O效率的主要问题。在这项工作中,我们通过重新设计CFD通用表示系统(CGNS)的数据映射层(DML)和数据结构,提出了一种适用于高性能CFD的GPU原生I/O框架(称为GPUDirectIO)。CGNS是一种广泛用于复杂CFD应用的文件格式。该以GPU为中心的系统通过GPU Direct Storage(GDS)实现了NVMe存储与GPU内存之间的直接数据传输,有效简化了异构CFD的I/O工作流程。为了进一步提高I/O吞吐量,我们开发了一种基于CGNS的分布式数据管理策略,该策略利用NVMe存储阵列充分利用了GPU的带宽。我们使用计算网格点数量达到16亿的CFD数据集,将GPUDirectIO的性能与现有的CPU中介I/O方法进行了比较。实验结果表明GPUDirectIO具有明显优势:单线程GPUDirectIO的读写速度分别是CPU中介I/O的2.95倍和3.49倍,并且传输延迟降低了约59%。当应用于分布式存储系统时,多线程GPUDirectIO的读写速度分别是CPU中介并行I/O的3.23倍和4.68倍,传输延迟减少了约39%。GPUDirectIO在强可扩展性和弱可扩展性测试中均展现了出色的并行效率和加速比。

引言

高效的数据管理和存储对于科学计算的进步至关重要[1]。在科学计算中,计算流体动力学(CFD)是一个对科学发现和工程应用都极为重要的领域。在CFD中,控制质量、动量和能量守恒的非线性纳维-斯托克斯方程会在三维物理空间中离散化并通过数值方法求解,通常也会考虑时间因素。为了在高分辨率下模拟复杂流体流动的多尺度多物理现象,高性能计算是必不可少的[2]、[3]、[4]。近年来,GPU加速技术极大地推动了多个领域的大规模CFD研究,例如高雷诺数湍流模拟以及包含详细化学反应的湍流燃烧模拟[5]、[6]、[7]。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号