通过回归模型提高云计算中的能源效率:一种基于数据驱动的方法并经过实验验证

《Future Generation Computer Systems》:Enhancing Energy Efficiency in Cloud Computing through Regression Models:A Data-Driven Approach with Experimental Validation

【字体: 时间:2025年11月08日 来源:Future Generation Computer Systems 6.2

编辑推荐:

  本文提出了一种基于预测的能源感知虚拟机分配系统,通过机器学习模型预测虚拟机CPU需求,动态优化资源分配和迁移策略,有效减少数据中心能耗并降低SLA违规率,实验表明其性能优于传统方法并接近理想Oracle策略。

  随着云计算技术的迅速发展,数据中心的规模和复杂性也在不断增长。这种增长带来了显著的能源消耗,主要体现在硬件设备和冷却系统上。为了应对这一挑战,研究者们提出了多种策略,其中虚拟机(VM)的整合(consolidation)成为一种广受关注的方法,旨在通过减少活跃的物理服务器数量,实现更高的资源利用率和更低的运营成本。然而,整合的成功与否高度依赖于对未来计算资源需求的准确预测。本文提出了一种基于预测回归模型的能源感知虚拟机分配系统,通过预测虚拟机的未来计算需求,实现对虚拟机的优化分配,从而在保障服务质量的同时,有效降低能源消耗。通过实验评估,该系统展示了在预测计算资源使用和实际应用中,机器学习驱动的虚拟机整合在资源利用和能耗优化方面的有效性。

在现代数据中心的运行中,云计算已成为企业处理计算任务的重要平台。它不仅降低了基础设施建设和维护的成本,还使企业能够更加专注于产品创新和业务发展。云计算的按需付费模式,加上高性能数据中心和高速网络的支撑,促进了云计算在多个行业和研究领域的广泛应用。然而,这种快速扩展也带来了巨大的能源需求,成为数据中心运营成本上升的主要因素。据国际能源署(IEA)报告,截至2024年初,全球数据中心数量已超过11000个,而这些设施的电力消耗不仅包括计算任务,还包括维持系统性能所需的冷却系统。根据IEA的数据,2022年数据中心消耗了240至340太瓦时(TWh)的电力,占全球总电力消耗的1%至1.3%。预计到2030年,其电力需求可能增加近200 TWh。以美国为例,能源部(DOE)分析了近年来电力消耗的变化,显示2014至2016年间约为60 TWh,到2018年底升至76 TWh,2023年底更是达到了176 TWh,占美国总能源消耗的4.4%。预计到2028年,其电力需求可能在325至580 TWh之间,这一增长趋势也受到大型语言模型服务等新兴技术的影响。这些不断增长的能源需求带来了经济和环境上的挑战,包括运营成本的增加、系统可靠性的下降以及碳排放的加剧,进一步加剧了全球气候变化的问题。

造成数据中心能源消耗过高的一个重要原因是资源利用效率低下。许多研究表明,许多组织中的服务器在大部分时间内的使用率低于30%,即使在峰值时也可能消耗高达70%的电力。此外,空闲的服务器仍然会消耗大约65%至70%的电力,这些电力消耗不仅浪费了资源,也增加了运营成本,同时未能提供相应的计算效益。因此,提高资源利用效率对于降低数据中心的能源消耗和提升其可持续性至关重要。

另一个关键挑战是商业数据中心中工作负载的高波动性。例如,图1展示了当前一些广泛使用的社交媒体平台(如Pinterest、Instagram、LinkedIn和X)的用户参与度,显示了用户请求在一天中仅在少数几个小时达到峰值使用率,且不同平台的使用模式存在显著差异。一个普遍的趋势是,社交媒体的用户参与度在早晨上升,中午达到高峰,而在夜间则下降。然而,Pinterest在深夜(12:00 AM至4:00 AM)表现出较高的用户活动,而Instagram则在晚餐后(6:00 PM至8:00 PM)出现增长。由于工作负载的这种高度波动性,为了在最坏情况下满足服务级别协议(SLA),服务器通常被设计为能够处理峰值负载,即使在某些时段存在资源的低利用率。这种做法导致了资源浪费和能源效率低下。

本文提出的系统旨在通过预测模型实现虚拟机的能源感知分配,其核心目标是优化虚拟机在物理服务器上的整合,从而减少活跃的物理服务器数量,提升能源效率。该系统基于我们之前的工作,通过引入预测回归模型,提高了虚拟机整合的效率。该系统由三个主要步骤组成:首先,虚拟机和物理机持续监控以收集资源使用数据;其次,机器学习算法分析这些数据,构建预测模型以准确预测虚拟机的资源使用模式;最后,在运行时,使用这些模型预测资源需求,并定期优化虚拟机的分配,以确保性能和服务质量约束得到满足,同时维持与服务级别协议(SLA)的一致性。这种预测和适应性的策略不仅提升了能源效率,还确保了云环境的性能优化。

在文献中,已有许多研究提出了各种方法,以提高数据中心的能源效率和虚拟机整合。其中,一些研究使用了分类算法,而另一些则采用了回归模型来预测虚拟机的资源需求。例如,Ouhame等人提出了一个结合卷积神经网络(CNN)和长短期记忆网络(LSTM)的模型,用于预测云数据中心的资源使用情况。该模型首先通过向量自回归(VAR)方法分析输入数据,以过滤多变量数据中的线性相关性。接着,通过CNN提取不同组件的资源使用模式并去除噪声,最后通过LSTM模型建模不规则趋势,生成最终预测。该模型在准确性和预测误差率方面相比其他方法有所改进,但其未涉及虚拟机替换策略和云数据中心的负载预测,这可能是其可靠性提升的一个方向。

Bi等人则提出了BG-LSTM模型,结合双向LSTM(BiLSTM)和网格LSTM(GridLSTM),以捕捉双向依赖关系和不同维度的信息。为了提高负载和资源使用率的预测,该模型采用了对数操作和Savitzky-Golay滤波器,以减少噪声,并使用Min-Max缩放器降低原始数据的规模。BG-LSTM模型在传统深度学习方法中表现良好,但作者也指出,该模型在Google数据集上表现优异,但在其他真实数据集上的效果可能需要进一步优化,以评估其有效性。

Ounifi等人则使用了三种深度学习模型,即多层感知机(MLP)、基于弹性反向传播的深度神经网络(DNN)和基于注意力机制的LSTM模型,用于预测电力使用效率(PUE)。通过Sobol敏感性分析技术,识别了对输出(PUE)变化影响较大的输入特征,并利用Hinton图定义了输入特征之间的关系。最佳性能的模型被发现为LSTM,但该研究也指出,所使用的数据集存在局限性。第一个数据集在数据收集时间上有限,而第二个数据集虽然覆盖了更长的时间段,但缺乏数据中心不同特征的详细信息,这限制了PUE值的准确计算和效率的识别。

Abohamama和Hamouda提出了一种混合的虚拟机放置算法,结合了改进的排列遗传算法(IGA-POP)和多维资源感知的最佳适应分配策略。该方法旨在最小化活跃服务器的数量,同时确保多维资源的平衡使用,如CPU、内存和带宽。该算法的有效性通过大量实验验证,显示出比其他启发式和元启发式方法更高的节能和资源利用效率。然而,由于实验评估中出现了较多的服务级别协议(SLA)违规情况,该方法需要进行调整,以防止服务器容量的过度使用,从而满足用户和应用的动态需求。

Shahidinejad等人提出了一种结合帝国竞争算法(ICA)和K-means的混合解决方案,用于基于工作负载聚类的资源分配。该方法通过聚类技术将任务分为具有共同特征的组,每组对应不同的资源需求。随后,决策树算法用于决定资源分配策略,以确定最适合每组任务的资源。通过动态资源分配,该方法实现了更高的CPU利用率和更大的弹性,同时减少了队列时间和能源消耗。

Singh和Singh提出了一种基于增强修改最佳适应递减(E-MBFD)算法的虚拟机分配方法,该算法首先按CPU使用率对虚拟机进行排序,然后分析物理机的资源,以确定是否有足够的资源支持虚拟机的分配。一旦找到合适的服务器,虚拟机将被分配。为了进一步优化分配,使用了人工神经网络(ANN),该网络以所有已分配虚拟机的能耗为输入,处理数据以验证分配是否合适,或者是否存在错误分配。

Shaw等人提出了一种基于强化学习的高级资源优化整合代理(ARLCA),用于优化云数据中心的虚拟机整合,提高能源效率和性能。该过程首先通过监控和存储资源使用数据,估计主机过载的概率,然后使用最小迁移时间(MMT)算法选择需要迁移的虚拟机。ARLCA随后生成整合决策,以防止目标主机在短时间内过载。为了确定最有效的代理配置,作者评估了Q-learning和SARSA RL算法,每种算法结合了ε-贪心或softmax动作选择策略。最终,SARSA softmax被发现是最有效的,随后与PBRS结合以提高学习指导。ARLCA代理与PowerAware整合算法进行了比较,实验结果表明该方法优于基准算法。然而,该方法的一个潜在限制是,在学习初期可能做出次优决策,因为代理依赖于与环境的交互来优化其策略,初始的整合动作可能不够有效。

Hsieh等人提出了一个基于灰度-马尔可夫模型的短期CPU预测方法,用于动态虚拟机整合。该模型通过分析累积的主机数据,识别过载和欠载的主机。为了更准确地检测欠载的主机,引入了一个新参数,结合了能耗和迁移次数。通过在真实工作负载上的模拟实验,该方法在迁移次数、SLA违规和主机能耗方面均表现出有效减少。然而,该方法在SLAVO(由于过载导致的SLA违规)指标上未能超越其他算法,这可能与该方法在最大化主机资源利用率上的努力以及预测方法本身的不准确性有关。

Saxena和Singh提出了一种在线多资源前馈神经网络(OM-FNN)模型,结合了误差驱动填充技术,以提高预测准确性。该系统通过任务的资源需求进行分组,以实现虚拟机的自适应缩放和高效的资源分配。此外,开发了一种三适应差分进化(TaDe)算法,以支持OM-FNN模型的训练,从而提高其学习、优化和适应能力。该集成方法在真实数据上进行了彻底测试,显示出比现有方法更高的预测准确性、资源利用率和减少的能源消耗。然而,该方法的一个限制是需要手动选择OM-FNN预测器的输入和输出层的节点数。此外,进一步优化可通过根据虚拟机之间的依赖关系,将预测的任务安排在靠近的虚拟机上,以减少通信密集型虚拟机带来的网络流量和能耗。

本文的研究主要扩展了之前的工作,通过提供多个原创贡献,增强了之前的部分。第1节和第2节经过修改和扩展,第3节详细描述了问题陈述和整个架构。第4节则介绍了用于建立预测虚拟机使用模型的四种回归算法,即基于直方图的梯度提升回归树(HGB)、支持向量回归(SVR)、多层感知机(MLP)和长短期记忆(LSTM)回归,这些算法在文献中被广泛用于预测任务。这些方法具有不同的特性。具体来说,HGB是一种针对大数据集优化的梯度提升回归方法,利用直方图加速训练,提供高性能和效率,但需要超参数优化,并且不如其他模型易于解释;SVR是一种基于支持向量机的回归模型,寻找特征与目标变量之间的关系,具有正则化和高维数据支持的优势,但可能在非线性核函数下计算时间较长;MLP是一种基于前馈神经网络的回归模型,能够建模复杂的非线性关系,但需要谨慎处理超参数,并且可能对过拟合敏感;LSTM则是一种基于递归神经网络的回归模型,专门用于寻找输入中的时间依赖关系,但需要更多的训练时间和更高的内存占用。

为了验证所提出的能量感知方法,我们进行了不同场景下的测试,包括Oracle(理想化场景)、机器学习(基于预测模型)和Reactive(基准场景)。Oracle场景代表了理想情况,其中虚拟机迁移管理器可以查询一个“Oracle”以获得每个虚拟机未来CPU需求的精确预测,从而实现虚拟机的优化迁移,以最小化能源使用。虽然这一场景在现实中不适用,但它建立了理论上的上限,展示了在完全可预测需求情况下可能实现的最佳能源效率。机器学习场景则代表了实际应用,其中虚拟机迁移管理器依赖于通过机器学习模型获得的预测。在本文中,我们选择了HGB、LinearSVR、SVR-RBF、MLP和LSTM模型来预测CPU需求。与Oracle场景不同,这些方法代表了更现实的场景,允许我们评估预测模型在没有完美预测情况下的能源效率。Reactive场景则代表了基准情况,其中不应用任何能源感知策略,仅在出现SLA违规时才触发实时迁移,这可能成为衡量预测模型优势的参考基准。

在实验评估中,我们采用了多种评估指标,包括SLA违规次数、虚拟机迁移次数和计算能源消耗。SLA违规次数是衡量系统在满足服务质量要求方面的关键指标,通常在运行时,累积的CPU需求超过服务器可用容量时发生。这一现象可能导致计算开销和系统性能下降。因此,在测试中,我们关注SLA违规次数。虚拟机迁移次数则是衡量迁移过程对整个系统的影响,迁移次数应尽可能减少,以避免系统开销。计算能源消耗则用于分析系统的能源使用情况,我们采用了一个广泛研究的模型,其中计算能源消耗主要受CPU、内存、磁盘存储和网络接口的影响,但其中CPU是主要的能源消耗者。因此,计算能源消耗通常基于CPU利用率来估计。在我们的实验中,计算能源消耗被建模为:服务器i在时间t的计算能源消耗等于最大能源消耗(通常约为250W)乘以一个系数,该系数反映了CPU利用率的平均值,即70%加上30%的CPU利用率。这一观察支持了将空闲服务器切换到睡眠模式以减少整体能源消耗的策略。

为了分析计算能源消耗,我们采用了一个广泛研究的模型,其中计算能源消耗在时间t时,由服务器i的CPU利用率来决定。该模型通过积分计算在时间间隔[t0, t1]内服务器i的计算能源消耗。最终,整个数据中心的总计算能源消耗由所有服务器的计算能源消耗之和来确定。此外,迁移能源消耗则由迁移过程中的三个主要因素决定:源服务器S、目标服务器T和迁移的虚拟机v。迁移能源消耗主要受源服务器和目标服务器在时间t的CPU使用率,以及迁移虚拟机在时间t的网络带宽影响。迁移能源消耗被建模为:迁移过程中,源服务器和目标服务器的CPU使用率以及迁移虚拟机的网络带宽的线性关系。在实验中,我们采用了一个合理的模型,通过积分计算迁移过程中的能源消耗。

在合成数据的实验中,我们构建了一个专门的数据生成器,以生成虚拟机资源使用日志。四个正态分布被定义,每个分布具有不同的均值和标准差,从而生成独特的、不重叠的数据范围。每个虚拟机具有一个参考时间段,由四个时间段组成,每个时间段对应一个不同的分布,从而确保在不同时间点的CPU需求具有可变性。实验环境由10台服务器组成,每台服务器可容纳40台虚拟机,资源使用数据每5分钟采样一次,持续90天,形成1,036,800个实例的数据集(每台虚拟机25,920个实例)。为了更好地可视化,图7展示了仅一天的数据,以说明四个使用模式。为了进行回归任务和验证,我们将原始数据集分为两个部分:训练集(67%,694,656个实例)和测试集(33%,342,144个实例)。训练集用于训练每个虚拟机的预测模型,而测试集用于评估系统在能量节省方面的性能。

在合成数据的实验结果中,我们比较了五种机器学习方法的预测性能,针对不同的σ值(影响生成模式噪声程度)。图8(a)和图8(b)展示了HGB、MLP、LSTM、SVR-RBF和LinearSVR在σ=0.05、0.10和0.15时的MAE(平均绝对误差)和MAPE(平均绝对百分比误差)。从这些图表中,我们可以得出两个主要观察:随着σ值的增加,预测误差也相应增加;HGB和MLP在所有σ值下实现了最低的MAE和MAPE,紧随其后的是LSTM,其误差仅略微高于HGB和MLP。SVR-RBF的性能略低于前三种方法,而LinearSVR则在所有评估模型中表现最差。此外,图9展示了不同δ值(资源使用阈值)下每种方法的SLA违规次数。可以观察到,随着δ值的增加,所有机器学习方法的SLA违规次数也增加,因为可用资源减少,难以应对意外请求。特别是MLP和HGB的违规次数低于其他方法。值得注意的是,Reactive方法的违规次数非常低,因为它依赖于所有物理服务器的资源可用性,并且不进行整合步骤,这导致了较高的能源消耗。而在Oracle情况下,SLA违规次数为零,因为没有预测错误,因此该方法能够实现最优的资源分配。根据图10,MLP和SVR-RBF的违规次数较高,这主要归因于其预测的不足,特别是在MLP的情况下,预测不足导致了意外的运行时资源请求,从而引发了SLA违规。为了确保在类似服务质量条件下进行公平的性能比较,所有实验结果均以δ=0.75(即资源使用阈值为75%)进行报告。

在合成数据的实验中,图11展示了不同方法的总能源消耗,其中Oracle方法(配置为δ=0.75)实现了最低的总能源消耗(1070.50 KWh),因为它仅激活了执行工作负载所需的最少服务器。相比之下,Reactive方法消耗了最多的能源(1518.44 KWh),因为所有服务器在整个模拟期间保持运行状态,无论负载如何。机器学习方法的总能源消耗略高于Oracle,但显著低于Reactive方法。这些结果进一步验证了机器学习预测在实现能源感知虚拟机整合中的有效性,有助于在现实数据中心场景中实现接近最优的能源效率。

在真实数据的实验中,我们使用了PlanetLab数据集,该数据集在文献中被广泛用于实验评估。该数据集包含10个CPU工作负载,每个工作负载对应2011年3月3日至4月20日之间的一天数据。CPU使用率每5分钟测量一次,形成每台虚拟机288个记录。每个工作负载包含不同数量的虚拟机,从最小的898(工作负载2)到最大的1516(工作负载4)。该数据集是CoMon项目的一个公开子集。实验环境由800台异构服务器组成,每台服务器配备两个CPU核心。虚拟机被分为四类,每类具有特定的CPU容量值(以MIPS为单位):15000、12000、6000和3000。为了进行预测任务和验证,我们将每个工作负载分为两个部分:训练集包含所有记录直到19:15:00(小时),而测试集则从该时间点到最后一个测量时间。

在真实数据的实验结果中,图12展示了不同方法在十个工作负载中的SLA违规次数。结果表明,MLP和SVR-RBF触发了较高的违规次数,其中MLP在工作负载W6中出现了显著的峰值,这主要是由于其预测不足导致的。相比之下,Oracle和Reactive方法的违规次数为零,这在Oracle中是预期的,而在Reactive中则由于物理资源的充足性,能够容纳所有虚拟机而不会引发违规,但导致了较高的能源消耗。在预测方法中,LSTM表现出了一致的强性能,并且似乎是整体上最稳健的方法。

图13展示了不同方法在十个工作负载中的虚拟机迁移次数。所有方法,包括Oracle,都表现出相对较高的迁移次数,这是实现虚拟机在物理服务器上的有效整合所必需的。相比之下,Reactive方法没有迁移,因为其策略下没有SLA违规。图14展示了不同方法在十个工作负载中的总能源消耗。正如预期的那样,Oracle方法(配置为δ=0.75)实现了最低的总能源消耗,因为它仅激活了执行工作负载所需的最少服务器。相比之下,Reactive方法消耗了最多的能源。基于机器学习的方法的总能源消耗略高于Oracle,但显著低于Reactive策略。这些结果进一步确认了机器学习预测在实现高效虚拟机整合和提升现实数据中心场景中能源效率的有效性。

在本文中,我们提出了一个基于预测回归模型的能源感知虚拟机分配系统,该系统能够有效减少数据中心的能源消耗。该系统由三个主要步骤组成:首先,虚拟机和物理机持续监控以收集资源使用数据;其次,机器学习算法分析这些数据,构建预测模型以准确预测虚拟机的资源使用模式;最后,在运行时,使用这些模型预测资源需求,并定期优化虚拟机的分配,以确保性能和服务质量约束得到满足,同时维持与服务级别协议(SLA)的一致性。这种预测和适应性的策略不仅提升了能源效率,还确保了云环境的性能优化。

此外,本文还介绍了几种用于预测虚拟机使用模式的机器学习方法。其中,HGB是一种针对大数据集优化的梯度提升回归方法,利用直方图加速训练,提供高性能和效率,但需要超参数优化,并且不如其他模型易于解释;SVR是一种基于支持向量机的回归模型,寻找特征与目标变量之间的关系,具有正则化和高维数据支持的优势,但可能在非线性核函数下计算时间较长;MLP是一种基于前馈神经网络的回归模型,能够建模复杂的非线性关系,但需要谨慎处理超参数,并且可能对过拟合敏感;LSTM则是一种基于递归神经网络的回归模型,专门用于寻找输入中的时间依赖关系,但需要更多的训练时间和更高的内存占用。

本文的研究还扩展了之前的工作,通过提供多个原创贡献,增强了之前的部分。第1节和第2节经过修改和扩展,第3节详细描述了问题陈述和整个架构。第4节则介绍了用于建立预测虚拟机使用模型的四种回归算法,即基于直方图的梯度提升回归树(HGB)、支持向量回归(SVR)、多层感知机(MLP)和长短期记忆(LSTM)回归,这些算法在文献中被广泛用于预测任务。这些方法具有不同的特性,HGB在大数据集上表现优异,但需要超参数优化;SVR在非线性数据上表现良好,但计算时间较长;MLP能够建模复杂的非线性关系,但需要谨慎处理超参数;LSTM则专门用于处理时间依赖关系,但需要更多的训练时间和更高的内存占用。

通过实验评估,我们发现基于机器学习的预测方法在减少SLA违规、迁移次数和总能源消耗方面表现良好。特别是,MLP方法在合成数据和真实数据的实验中均表现出最佳性能,其总能源消耗仅比Oracle方法高出10.37%。这一结果突显了机器学习预测在指导能源感知虚拟机整合中的有效性。未来的研究可以进一步探索迁移峰值缓解技术,以优化迁移过程中的资源利用和能耗。此外,还可以研究更复杂的策略,以实现能源高效的虚拟机整合,并通过聚类策略将具有相似使用模式的虚拟机分组,以进一步提升整合效率和整体系统性能。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号