《Sustainable Computing: Informatics and Systems》:CARA: Adaptive Scheduling for Carbon-Efficient Workload Orchestration in Distributed Cloud Systems
编辑推荐:
云计算的指数级增长使数据中心能源消耗成为关键的环境挑战,目前占全球电力消耗的约2%。尽管如此,现有云基础设施仍依赖静态的、碳不可知(carbon-agnostic)的调度策略,未能充分考虑电网碳强度(Carbon Intensity, CI)显著的时序与空间变
云计算的指数级增长使数据中心能源消耗成为关键的环境挑战,目前占全球电力消耗的约2%。尽管如此,现有云基础设施仍依赖静态的、碳不可知(carbon-agnostic)的调度策略,未能充分考虑电网碳强度(Carbon Intensity, CI)显著的时序与空间变异性。本研究提出并评估了上下文感知自适应资源分配(Context-Aware and Adaptive Resource Allocation, CARA)架构,该系统旨在将计算增长与环境影响解耦。研究方法涉及一种事件驱动架构,该架构将实时边际排放率(Marginal Emissions Rate, MER)预测集成至多目标优化(Multi-Objective Optimization, MOO)引擎中,以执行异步工作负载的联合时空迁移。为评估该框架,研究人员使用Python 3.9、用于实时电网数据的ElectricityMap应用程序接口(Application Programming Interface, API)以及仿真的云执行模型开发了原型。实证结果表明,与碳不可知基线调度器相比,CARA实现了75.7%的碳足迹减排。这一显著减排成果是在异步工作负载12小时最大延迟约束下实现的,具体方法为利用化石燃料密集型本地电网与全球最优区域在可再生能源高渗透窗口期的碳强度套利(Carbon Intensity Arbitrage)。此外,系统保持了仅0.54秒的可忽略不计的调度开销,并验证了时空效率比(Spatio-Temporal Efficiency Ratio),该指标量化了延迟的环境回报。这些发现证实,碳感知调度是一种高影响、低成本的架构原则,能够有效缓解数字基础设施的环境负担。
云计算、大规模数据分析和人工智能工作负载的迅速扩展导致全球数据中心电力消耗加速攀升,2024年已达约415太瓦时(TWh)。这一趋势不仅是技术层面的关切,更是重要的社会挑战,因为数据中心目前占全球电力需求的1.5%至1.7%,预计到2030年该需求将翻倍。由此产生的温室气体(Greenhouse Gas, GHG)排放已成为企业可持续发展报告的焦点。解决这一能源消耗问题对于全球气候减缓目标至关重要,因为计算能力的区域集中给本地电网带来了巨大压力,并增加了数字服务可避免碳足迹。
据Cozzi等人预测,数据中心将成为主要经济体电力需求增长的主导驱动因素,特别是在美国和日本,到2030年可能占电力总增长近一半。仅在美国,近期能源使用报告表明,随着人工智能集成深化,数据中心电力需求正超过初始效率提升。这突显了问题的规模和紧迫性,即数字服务的扩张与国家电力系统的稳定性和累积排放直接相关。
应对这一挑战的关键概念是碳感知计算(Carbon-Aware Computing),即协调数字需求与清洁能源的可用性。传统调度机制是碳不可知的,意味着它们立即调度工作负载而不考虑所消耗电力的碳强度。这存在问题,因为电网清洁度剧烈波动:取决于能源结构,碳强度在一天内可变化高达460 gCO?/kWh。
与电网可变性相关的是边际排放率(MER)的概念,它衡量电力需求增量变化的排放影响。虽然许多系统利用平均碳强度进行历史核算,但本研究优先采用MER,因为它识别了必须根据软件负载进行增减的特定"峰值"发电厂,从而捕捉调度决策的真实边际影响。通过利用MER预测,系统可以执行时间和空间迁移(Temporal and Spatial Shifting),将工作负载移至可再生能源渗透率最高的时间或区域。虽然研究表明迁移异步工作负载可在尊重截止期限的前提下将任务碳足迹减少约5%,但行业仍缺乏标准化、自动化的架构来大规模实施这一策略。
据研究人员所知,联合时空优化尚未作为通用云集成器的标准控制平面功能。现有文献存在显著定量差距:例如,虽然CarbonFlex等框架通过时间迁移实现了57.5%的排放减少,但它们在空间上受到约束。由于缺乏空间移动性集成,现有系统 missed约20-25%的额外减排潜力,这些潜力可通过区域碳强度套利获得。迄今为止,大多数研究要么聚焦于单一集群内纯粹的时间迁移,要么聚焦于没有动态预测集成的纯粹空间放置。此外,许多现有解决方案在聚合负载层面运行,而非提供逐任务的延迟和碳足迹目标,这往往使这些方法难以适用于多样化的异步企业工作负载。
本研究解决的根本问题是:现有云编排框架将计算资源视为地理和时间上静态的,导致显著的可避免排放,因为它们无法同时基于边际电网信号利用空间和时间套利。因此,主要研究目标是开发和评估一种模块化、自动化架构,该架构利用实时MER预测执行联合时空优化,从而在严格遵守特定应用延迟约束的同时最小化任务碳足迹。
与CarbonFlex和CA-SDK等先前碳感知框架(主要提供策略指导或开发者级抽象)不同,CARA引入了端到端、事件驱动的调度架构,将实时边际排放智能直接嵌入编排层。CARA独特地将工作负载放置表述为多目标优化问题,平衡碳足迹减少、延迟容忍度和调度开销,并引入新颖的时空效率比以量化执行延迟的环境回报。为评估实时环境指标对云编排的影响,本研究正式检验以下假设:零假设(H?)为将实时环境指标集成至多目标优化框架不会导致碳足迹的显著减少(与碳不可知基线相比),或无法维持与服务水平协议(Service Level Agreement, SLA)的合规性;备择假设(H?)为CARA架构利用多目标优化框架产生统计学上显著的碳减排,超过50%阈值,同时严格遵守SLA定义的延迟约束。
研究人员通过模拟多个亚马逊网络服务(Amazon Web Services, AWS)区域多样化批处理工作负载的原型评估这些假设,具体目标是煤炭密集型电网与可再生能源丰富电网之间的套利。数 据 明 确 表 明,CARA架构成功将模型训练工作负载的碳足迹减少了75.7%。这一优化在12小时最大延迟窗口内以可忽略的性能开销实现,证明该系统能够有效将异步任务中的松弛时间转化为可验证的排放节省。此外,系统通过生成加密签名的执行清单展示了技术稳健性,确保绿色计算声明可审计。
本研究的主要贡献包括:提出一种新颖的模块化、云无关架构,独特地集成MER摄取、基于MOO的决策制定以及使用AWS EventBridge等原生云调度器的延迟执行;推进对碳强度套利如何在软件生命周期中自动化的理解;通过将碳足迹作为一等调度约束,CARA为下一代可持续分布式系统提供了实用蓝图。
在相关工作方面,碳感知计算的发展已通过多种行业和学术解决方案取得显著进展。一种突出方法是碳智能计算管理(Carbon-Intelligent Compute Management, CICS),它首创使用虚拟容量曲线(Virtual Capacity Curves, VCCs)根据日前碳强度预测和集群级需求预测塑造灵活需求。该系统证明在机队规模上进行时间负载迁移对于异步工作负载(如批处理数据)高度实用。
CARA架构采用模块化、事件驱动设计,将碳感知逻辑与执行基础设施分离。它由三个不同的功能层组成:数据摄取、控制平面(编排)和执行。
为验证架构的通用性,研究人员将3小时"模型训练"特征作为主要基准。为验证系统在工作负载谱 上的稳健性(敏感性分析),引入了两个额外的原型:1小时"数据摄取"任务和6小时"视频处理"任务。统计验证涉及计算这些特征的均值减少量、标准差(σ)和95%置信区间。
CARA架构的评估聚焦于优化幅度、绿色逻辑的计算成本以及结果决策的可审计性。实证结果来自四个全球AWS区域3小时模型训练工作负载的模拟,验证了将计算需求与电网碳强度解耦的可行性。
本研究将上下文感知自适应资源分配(CARA)架构技术实现细节进一步阐述如下。数据摄取层通过ElectricityMap API获取实时MER数据,该层负责解析多区域电网的碳强度信号并标准化为统一格式。控制平面层包含三个核心组件:MER预测模块采用时间序列分析方法生成未来窗口期的碳强度预测;MOO引擎基于NSGA-II(非支配排序遗传算法II,Non-dominated Sorting Genetic Algorithm II)算法实现,优化目标为最小化碳足迹、最大化资源利用率、最小化延迟违反率;调度决策模块将Pareto最优解映射为具体的任务调度指令。执行层利用AWS EventBridge实现事件的异步触发与工作负载的延迟执行,通过原生云服务的无服务器特性确保编排系统的可扩展性。
原型系统的实验环境构建于仿真的多区域云执行模型之上,该模型模拟了四个代表性AWS区域的计算资源特征与网络延迟拓扑。工作负载特征来自公开的机器学习训练追踪数据,经适配后生成具有不同计算密集度和延迟容忍度的任务序列。对比基线包括碳不可知的即时调度器(Immediate Scheduler)、仅时间感知的CarbonFlex调度器,以及随机延迟调度器。评估指标涵盖碳足迹减少百分比、调度延迟开销、SLA违反率以及时空效率比。
敏感性分析结果表明,CARA架构在不同工作负载类型上均保持稳定性能。1小时"数据摄取"任务因延迟容忍度较低,碳减排效果相对受限,但仍较基线实现显著改善;6小时"视频处理"任务因具有更长的可调度窗口,碳减排潜力接近模型训练任务。统计验证显示,三种工作负载特征下95%置信区间的碳减排均值均具有统计学显著性,标准差表明系统对输入参数扰动具有鲁棒性。
讨论部分进一步分析了碳强度套利的实现机制。研究人员指出,时空效率比的定义为碳足迹减少量与引入延迟的比值,该指标为评估绿色调度策略提供了量化依据。当可再生能源丰富区域(如北欧水电、澳大利亚太阳能)与化石燃料密集区域(如东亚煤炭电网)存在显著碳强度差异时,跨区域空间迁移可获得比单一时间迁移更优的减排效果。加密签名执行清单的引入,通过区块链技术确保碳减排声明的不可篡改性,满足企业可持续发展报告的审计要求。
本研究结论指出,CARA架构成功将异步、延迟容忍工作负载中的操作松弛时间转化为灵活的环境资产。除实现75.7%碳足迹减排的实证成就外,该研究综合了云编排的关键范式转变:从"跟随数据"到"跟随可再生能源"。通过将碳足迹作为一等调度约束,CARA证明了碳感知调度在不牺牲服务质量的前提下实现深度脱碳的技术可行性,为分布式云系统的可持续演进提供了可立即部署的架构参考。