MetaPilot：一种基于深度强化学习（DRL）的控制器，能够动态适应高性能计算（HPC）系统中不断变化的调度目标

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Future Generation Computer Systems》：MetaPilot: A DRL-based controller for dynamic adaptation to shifting scheduling objectives in HPC systems

【字体：大中小】 时间：2025年12月06日 来源：Future Generation Computer Systems 6.2

编辑推荐：

　　提出MetaPilot，一种基于深度强化学习的动态调度控制器，能根据实时系统状态自适应切换资源利用率和任务等待时间优化目标，在CPU和GPU异构集群中显著降低最大等待时间（最高19%），同时提升资源利用率，并验证其在长期动态负载下的泛化能力。

　　
高效计算（HPC）系统的调度效率直接影响资源利用率和用户体验。传统调度方法通常采用固定策略，例如先来先服务（FCFS）或基于资源利用率的静态优化，难以适应动态变化的计算负载。新研究提出的MetaPilot框架通过动态调整系统级与用户级优化目标，显著提升了HPC集群的调度性能。

### 1. 现有调度方法的局限性
传统调度系统在处理高并发、多资源异构场景时面临两大矛盾：系统级资源利用率优化与用户级任务响应速度提升之间的冲突。例如，最大化CPU利用率可能优先调度大型计算任务，导致中小型任务堆积等待时间过长；而侧重缩短平均等待时间可能造成资源碎片化，降低整体吞吐量。固定策略的僵化性使其难以应对实时波动，如突发性GPU计算任务或资源闲置期的动态调整需求。

### 2. MetaPilot的核心创新
该框架通过三个核心模块实现动态调度：
- **实时监控层**：持续采集集群资源状态（CPU/内存/GPU使用率）和任务队列特征（平均/最大等待时间、资源需求分布）
- **决策层**：采用深度强化学习（DRL）的MetaPilot代理，动态选择优化目标（资源利用率最大化或任务响应最短）
- **执行层**：调用底层HeraSched引擎，该引擎已验证能高效处理异构资源分配，通过分离决策与执行模块保持系统兼容性

### 3. 状态表示与奖励机制设计
MetaPilot的状态向量包含：
- **集群状态**：各资源类型的总使用量与剩余量比例（如GPU使用率=已分配GPU数/总GPU数）
- **队列特征**：任务总数、平均资源需求量、长尾任务占比
- **时间特征**：当前时刻的小时周期和星期几（反映用户活动规律）

奖励函数采用复合结构：
- 当队列空时给予固定高奖励（4分）
- 非空时包含四个分量：
1. 等待时间惩罚（权重α，根据集群特性动态调整）
2. CPU利用率奖励（剩余CPU占比）
3. GPU利用率奖励（仅GPU集群有效）
4. 内存利用率奖励
通过调整α值（与集群平均等待时间量级匹配），系统可平衡不同目标优先级。实验表明，设置α为10^3（CPU集群）和10^4（GPU集群）时能有效避免策略坍塌。

### 4. 实验验证与性能突破
#### 4.1 CPU集群（Physical分区）
- **测试周期**：2021.8-2022.9（13个月真实负载）
- **关键结果**：
- 最大等待时间降低19%（5,134,531秒 vs HeraSched_U的5,605,218秒）
- 资源利用率提升（CPU 53.05% vs HeraSched_W的52.16%，内存42.55% vs 41.83%）
- 平衡策略使平均等待时间（15,699秒）接近最优纯用户导向策略（HeraSched_W的13,897秒），同时避免极端延迟
- **动态决策示例**：在2022.1-2022.2高负载期（CPU使用率峰值712.4%），系统自动切换至资源利用率优先模式，通过动态调整任务分配比例，在保持低延迟的同时提升30%的CPU利用率

#### 4.2 GPU集群（Deeplearn分区）
- **测试挑战**：
- 训练集（2021.9-2022.9）与测试集（2023.5-2024.5）存在显著时间差异
- 多资源竞争（CPU/GPU/内存组合需求）
- 极端负载（GPU使用率峰值1054.2%）
- **突破性表现**：
- 资源综合利用率最高（CPU53.05%/GPU73.78%/内存42.55%）
- 最大等待时间比次优策略（HeraSched_U）降低9.3%
- 任务完成时间提前162小时（约6.75天）
- 对比21种传统调度策略（FCFS/SJF/WFP3等组合），在平均/最大等待时间和资源利用率三个维度均实现最优

### 5. 技术实现与扩展性
- **轻量化设计**：决策层仅占集群管理节点资源的0.5-1%，在Ryzen 7700 CPU+RTX3090 GPU工作站实测决策延迟2.5-21.1ms
- **模块化架构**：通过API与现有调度系统（如Slurm/PBS）无缝集成，无需修改底层执行逻辑
- **可扩展性**：已实现动态扩展到能耗优化（监测电源负载）、热管理（GPU温度梯度）等新维度，未来可整合碳足迹计算

### 6. 与相关研究的对比优势
- **动态目标切换**：区别于固定混合奖励函数（如RLScheduler），MetaPilot通过元学习机制实时判断当前最优目标
- **多资源协同**：在GPU集群中同时优化CPU利用率（53.05%）与GPU利用率（73.78%），克服了传统方法"顾此失彼"的问题
- **抗过拟合能力**：通过训练周期内随机插播旧数据集（10%比例），在Deeplearn测试集仍保持97.2%的性能稳定性

### 7. 工程化落地价值
- **资源成本**：管理节点需配置≥64核CPU和512GB内存（GPU集群可降至0.79GB显存）
- **部署周期**：在物理集群实施仅需3-5天（含模型迁移），通过云仿真环境可缩短至8小时
- **ROI测算**：在百万级任务规模下，系统级资源浪费减少23%，用户级任务完成时间缩短18%，预计3年可收回系统升级成本

### 8. 未来研究方向
- **多目标泛化**：探索将资源利用率与碳足迹纳入统一奖励函数
- **增量学习**：开发在线增量学习模块，适应硬件迭代带来的特征空间变化
- **用户反馈闭环**：集成任务完成后的用户满意度评分，构建强化学习的动态奖励函数

MetaPilot的突破在于将调度问题从静态优化转化为动态博弈，通过实时感知系统状态（资源供需比、负载波动率、任务类型分布）和任务特征（SLA约束、资源需求熵值），实现调度策略的自主进化。这种自适应机制使HPC系统在处理异构工作负载时，能同时优化长期资源效率和短期用户体验，为智能计算基础设施提供了新的范式。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号