针对互联高性能计算(HPC)环境的、具备能耗硬件感知功能和工作负载识别能力的作业调度系统
《IEEE Transactions on Parallel and Distributed Systems》:Energy hardware and workload aware job scheduling towards interconnected HPC environments
【字体:
大
中
小
】
时间:2025年11月25日
来源:IEEE Transactions on Parallel and Distributed Systems 6
编辑推荐:
该研究针对异构多集群HPC环境提出EAMC调度策略,通过预测不同硬件架构和处理器频率下的任务性能与能耗,优化作业调度和资源分配,在Slurm实现中验证了比传统策略降低25%响应时间、6%完成时间,节省20%能源,相比纯能耗优化策略效果更优。
摘要:
新型的高性能计算(HPC)机器正逐渐接近百亿亿次计算(exascale)的性能水平。这些机器的功耗一直在增加,研究人员正在探索降低功耗的方法。另一个趋势是HPC机器的复杂性日益增加,表现为硬件组件的异构性增强,以及同一台机器中包含多种不同的集群架构。我们将这类环境称为异构多集群环境。为了优化这些环境中的性能和能耗,本文提出了一种基于能源感知的多集群(Energy-Aware-Multi-Cluster, EAMC)作业调度策略。EAMC策略能够通过预测不同硬件架构和处理器频率下作业的性能和能耗,来优化作业的调度和分配,从而降低工作负载的能耗、完成任务所需的时间(makespan)以及响应时间。该策略为每种作业-资源组合分配不同的优先级,优先考虑效率最高的作业,同时对效率较低的作业也给予一定程度的考虑,以减少响应时间并提高集群利用率。我们在Slurm调度系统中实现了EAMC策略,并对两个CPU集群在同一台机器上协同工作的场景进行了测试。模拟结果显示,与仅关注运行时最短的策略相比,该策略可将响应时间和完成任务所需的时间分别减少25%和6%,同时总能耗降低20%;与仅关注能耗最低的策略相比,响应时间和完成任务所需的时间分别减少49%、26%和6%。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号