针对互联高性能计算(HPC)环境的、具备能耗硬件感知功能和工作负载识别能力的作业调度系统

《IEEE Transactions on Parallel and Distributed Systems》:Energy hardware and workload aware job scheduling towards interconnected HPC environments

【字体: 时间:2025年11月25日 来源:IEEE Transactions on Parallel and Distributed Systems 6

编辑推荐:

  该研究针对异构多集群HPC环境提出EAMC调度策略,通过预测不同硬件架构和处理器频率下的任务性能与能耗,优化作业调度和资源分配,在Slurm实现中验证了比传统策略降低25%响应时间、6%完成时间,节省20%能源,相比纯能耗优化策略效果更优。

  

摘要:

新型的高性能计算(HPC)机器正逐渐接近百亿亿次计算(exascale)的性能水平。这些机器的功耗一直在增加,研究人员正在探索降低功耗的方法。另一个趋势是HPC机器的复杂性日益增加,表现为硬件组件的异构性增强,以及同一台机器中包含多种不同的集群架构。我们将这类环境称为异构多集群环境。为了优化这些环境中的性能和能耗,本文提出了一种基于能源感知的多集群(Energy-Aware-Multi-Cluster, EAMC)作业调度策略。EAMC策略能够通过预测不同硬件架构和处理器频率下作业的性能和能耗,来优化作业的调度和分配,从而降低工作负载的能耗、完成任务所需的时间(makespan)以及响应时间。该策略为每种作业-资源组合分配不同的优先级,优先考虑效率最高的作业,同时对效率较低的作业也给予一定程度的考虑,以减少响应时间并提高集群利用率。我们在Slurm调度系统中实现了EAMC策略,并对两个CPU集群在同一台机器上协同工作的场景进行了测试。模拟结果显示,与仅关注运行时最短的策略相比,该策略可将响应时间和完成任务所需的时间分别减少25%和6%,同时总能耗降低20%;与仅关注能耗最低的策略相比,响应时间和完成任务所需的时间分别减少49%、26%和6%。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号