
-
生物通官微
陪你抓住生命科技
跳动的脉搏
F-DATA:面向高性能计算系统作业中心预测建模的Fugaku工作负载数据集
【字体: 大 中 小 】 时间:2025年07月31日 来源:Scientific Data 6.9
编辑推荐:
研究人员为解决高性能计算(HPC)系统缺乏公开的大规模工作负载数据集问题,开展了F-DATA数据集构建研究。该数据集包含日本"富岳"(Fugaku)超级计算机2400万条作业记录,创新性地采用SBert模型对敏感数据进行不可逆编码,同时保留语义信息。研究实现了首个包含完整性能指标(如flops、mbwidth)和功耗特征的Tier0超算数据集,为开发优化系统吞吐量和能效的机器学习模型提供了关键资源,相关成果发表在《Scientific Data》。
在气候变化模拟、新药研发等科学前沿领域,高性能计算(HPC)系统已成为不可或缺的研究工具。然而这些"科学重器"背后隐藏着巨大能耗问题——单个超级计算机的年耗电量堪比中小城市,其碳足迹日益引发关注。更棘手的是,现有研究面临"数据荒"困境:一方面,用户隐私限制导致作业名称、用户信息等敏感数据无法公开;另一方面,技术壁垒使得功耗监控、性能计数器等关键指标难以系统化采集。这种数据缺失严重制约了通过机器学习优化HPC系统能效的研究进展。
针对这一双重挑战,意大利博洛尼亚大学(University of Bologna)、日本理化学研究所(RIKEN)等机构的研究人员合作构建了F-DATA数据集。这项开创性工作以曾蝉联世界第一的"富岳"(Fugaku)超级计算机为研究对象,采集了2021年3月至2024年4月间2400万条作业执行记录,相关成果发表在《Scientific Data》期刊。该研究首次实现三大突破:完整覆盖Tier0超算工作负载特征、创新性采用自然语言处理技术保护隐私数据、系统集成功耗与性能监控指标,为HPC系统优化研究树立了新标杆。
研究团队主要运用三项关键技术:1)通过Fugaku专有运维软件采集45维作业特征,包括请求/实际资源用量(cnumr/cnuma)、功耗指标(minpcon/avgpcon/maxpcon)和性能计数器(perf1-perf6);2)采用SBert模型对作业名(jnam)、用户(usr)等敏感信息进行384维向量编码,在保护隐私同时保留语义特征;3)基于性能计数器推导出浮点运算速率(flops)、内存带宽(mbwidth)等关键指标,并通过系统岭点(ridge point)理论将作业分类为计算密集型(compute-bound)或内存密集型(memory-bound)。
【数据特征】研究揭示Fugaku工作负载呈现显著异构性:约79%作业使用≤10个节点,但存在占用超万节点的大规模作业;约88%作业在1小时内完成,但仍有数千作业持续数天。性能分析显示计算密集型作业占比38%,且在2023年1月等时段成为主导类型。

【编码验证】对比实验证明SBert编码(sb_sensitive)显著提升预测准确率:在性能类别(pclass)预测中较匿名编码(sb_anon)提高4-8%,在功耗预测(avgpcon)中降低12-15%误差。这验证了语义保留编码对机器学习模型性能的增强作用。

【架构价值】数据集完整记录A64FX处理器特性:包含SVE向量指令(512-bit)计数(perf3)、HBM内存事务(perf4/perf5)等独特指标,为ARM架构超算研究提供首份大规模实证数据。功耗监测显示节点级功耗跨度达200W,为能效优化提供精确基准。
这项研究通过技术创新解决了HPC领域的核心矛盾——数据开放与隐私保护的平衡问题。SBert编码方案既遵守GDPR等隐私法规,又通过384维向量保留了"用户-作业"关联特征,使预测模型准确率提升最高达8%。所发布的28GB数据集包含38个月度parquet文件,首次实现Tier0超算全周期工作负载的标准化记录,为开发下一代智能调度算法、能效优化工具提供了不可替代的训练资源。特别值得关注的是,研究团队承诺持续更新数据集,这种开放共享模式将加速HPC社区向"绿色计算"转型的步伐。
从科学方法论角度看,该研究建立了超算工作负载分析的新范式:1)将NLP技术引入HPC数据治理,开创了隐私敏感数据的效用保持型编码方案;2)通过性能计数器反推flops、mbwidth等指标,克服了硬件监控缺失的瓶颈;3)提出的opint(operational intensity)指标与ridge point分类法,为计算特征分析提供了量化工具。这些创新不仅适用于Fugaku系统,也为其他ARM架构超算的效能研究提供了可移植的方法框架。
生物通微信公众号
知名企业招聘