基于CAPIO实现文件级工作流动态透明流式传输优化方法研究

【字体: 时间:2025年09月28日 来源:Future Generation Computer Systems 6.2

编辑推荐:

  本文针对现代大规模应用中I/O瓶颈问题,提出了跨应用可编程I/O(CAPIO)方法,通过CAPIO-CL协调语言和中间件实现文件级工作流的透明流式传输。研究显示,该方法可将工作流执行时间减少约50%,显著提升科学计算效率,为高性能计算提供了创新的I/O优化解决方案。

  
随着高性能计算(HPC)中心突破Exaflop算力壁垒,现代大规模应用的I/O需求日益增长,存储技术和并行文件系统(PFS)却难以跟上步伐。从科学模拟到深度学习工作负载,数据I/O正逐渐成为限制应用扩展性的关键瓶颈。传统的HPC I/O栈变得愈发复杂,科学应用依赖领域特定的数据抽象(如NetCDF、HDF5或ADIOS)和高效底层I/O库(如MPI-IO)来优化对多维数据对象的访问模式。然而,适配传统应用到这些数据接口意味着需要重写业务代码,并大幅调整其I/O相关行为。
另一种方法是在应用和PFS之间介入一个高效的专用文件系统,透明地注入I/O优化(如内存缓存和数据流式传输),而无需修改原始代码库。跨应用可编程I/O(CAPIO)中间件旨在改进基于事后执行后续步骤和文件间通信的标准科学工作流,提供两个核心特性:一个高效的内存文件系统用于临时存储中间数据而无需涉及PFS,以及隐藏在标准POSIX语义背后的透明数据流式传输能力。具体而言,CAPIO将后续工作流步骤之间的粗粒度时间依赖转换为文件级数据依赖,将文件视为多生产者/多消费者数据流。CAPIO协调语言(CAPIO-CL)允许工作流设计者为每个文件依赖选择性地指定流式传输能力,而CAPIO运行时库负责强制执行这些能力以优化工作流执行,同时保证与标准事后评估顺序的一致性。
CAPIO的首个版本将中间数据完全存储在节点主内存中,并依赖MPI进行节点间通信,绕过PFS。虽然这种设计在性能上最为高效,但存在两个局限:1)工作流中间数据的总大小必须适配节点内存以避免内存不足(OOM)错误;2)由于MPI的静态特性,CAPIO运行时使用的所有节点必须在整个工作流执行期间保持分配状态。本文通过引入重新设计并改进的CAPIO运行时架构来扩展先前工作,该架构支持动态节点分配和基于PFS的数据交换。这些增强解决了先前版本的局限。此外,本研究使用多个微基准和两个实际工作流进行了扩展的实验评估,证明了新运行时的优势。特别地,CAPIO能够在微基准和实际工作流上将工作流执行时间减少高达约50%。
研究主要采用以下关键技术方法:通过CAPIO-CL协调语言标注工作流步骤间文件同步语义;利用基于Intel? syscall_intercept的拦截库透明定制POSIX系统调用行为;开发支持多后端(CAPIO-MPI和CAPIO-FS)的中间件架构;采用共享内存队列和缓存机制优化控制通信;通过分布式存储和元数据管理实现动态节点协调。实验使用1000-genome和VisIVO真实工作流数据集,在配备BeeGFS并行文件系统的HPC集群上进行性能验证。
研究结果包括:
  1. 1.
    微基准测试显示,在单对单通信模式中,CAPIO-FS使执行时间减少40-45%,CAPIO-MPI减少60-65%;小文件处理中,CAPIO-MPI因内存存储优势表现更佳;广播和散射模式中,两种后端均显著提升性能,其中CAPIO-MPI在节点扩展时保持稳定性能。
  2. 2.
    大规模测试表明,CAPIO-MPI在64节点扩展中执行时间恒定,而CAPIO-FS受PFS争用影响但仍优于基线。
  3. 3.
    与ADIOS2对比测试中,CAPIO在小文件处理上更具优势,且无需修改现有代码。
  4. 4.
    1000-genome工作流测试中,CAPIO-MPI实现12.5%的性能提升,CAPIO-FS提升6%,主要通过流式执行个体与个体合并步骤实现。
  5. 5.
    VisIVO工作流测试中,CAPIO-FS使PointDistribute过滤器性能提升15%,Statistics过滤器提升近50%,充分体现流式注入对计算密集型任务的优化效果。
研究结论表明,CAPIO方法通过透明注入数据流式传输能力和内存缓存机制,有效优化了科学工作流的执行效率。CAPIO-CL语言与多后端中间件的结合,既支持高性能的MPI通信,又提供基于文件系统的灵活动态调度,克服了传统MPI的静态限制。实验证明该方法在多种I/O模式和真实工作流中均能显著减少执行时间,最高可达50%,为高性能计算环境中的I/O瓶颈问题提供了创新解决方案。未来工作将聚焦于与成熟工作流管理系统(如StreamFlow)的集成,扩展CAPIO-CL语言能力,以及统一不同后端特性(如在CAPIO-FS中集成内存缓存),进一步提升跨平台适配性和性能优化水平。该研究发表于《Future Generation Computer Systems》,为科学计算领域的大规模数据处理提供了重要的技术支撑和方法学参考。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号