基于机器学习的发电厂电力需求和燃料消耗预测:以孟加拉国为例的案例研究

《Next Energy》:Machine learning-based prediction of power demand and fuel consumption of a power plant: A case study from Bangladesh

【字体: 时间:2025年10月03日 来源:Next Energy CS1.3

编辑推荐:

  电力需求与燃料消耗预测模型研究:基于孟加拉国HFO电厂的机器学习方法分析。通过对比KNN、ANN和GBRT算法在150MW重油电厂7年运营数据(2017-2023)上的表现,发现GBRT模型以R2=0.9994和RMSE=1.102的指标最优,有效整合了工作时长、燃料消耗、环境温湿度等六项输入参数,为资源受限地区能源管理提供可扩展解决方案。

  本研究致力于解决像孟加拉国这样的发展中国家所面临的电力和燃料短缺问题。尽管这些国家拥有足够的发电能力,但往往由于燃料供应有限而遇到挑战。为了缓解这一问题,本研究提出了一种预测模型,使发电厂能够准确估计特定时间点所需的发电量以及相应的燃料需求。与依赖大量传感器网络的模型不同,本研究开发了一种在传感器数据有限的情况下依然有效的解决方案,适用于资源匮乏的环境。研究采用机器学习(ML)模型来预测电力需求和燃料消耗(FC),对象是一个150兆瓦的重油发电厂。研究使用了2017年至2023年的运营数据,并评估了多种ML算法,包括K近邻(KNN)、人工神经网络(ANN)和梯度提升回归树(GBRT)。电力需求的预测基于六个输入参数:工作时间、燃料消耗、辅助消耗、大气温度、相对湿度和大气压。GBRT算法在这些模型中表现最佳,取得了最高的准确性,其决定系数(R2)达到0.9994,均方根误差(RMSE)为1.102。研究结果突显了机器学习在提升能源管理方面的潜力,GBRT模型提供的精确预测能够支持燃料采购的主动策略,有助于缓解能源短缺问题。

在电力生产中,由于电力无法大规模有效储存,因此发电量通常与用户需求和电网损耗保持同步。准确预测电力生成对于确保不间断供电、管理运营成本和促进经济与环境的可持续性至关重要。尤其在依赖于低效燃料来源的地区,如柴油微网,发电机在负载不足时的燃料消耗率可能高达预期的五倍。孟加拉国也面临类似的问题,由于燃料短缺和基础设施老化,需要先进的预测模型来优化资源分配。全球范围内,气候变化的紧迫性使得能源部门的脱碳成为可持续发展的核心议题,实现电力生产领域的净零排放被视为达成联合国可持续发展目标(SDGs)的关键,尤其是SDG 7(负担得起且清洁的能源)和SDG 13(气候行动)。然而,预测仍然面临诸多挑战,包括需求因时间、天气状况、经济活动等因素的变化而波动,可再生能源的不稳定性,数据质量,计算能力以及政策对预测准确性的潜在影响。这些挑战不仅影响满足负载需求,也限制了利润优化和减少环境污染的潜力。解决这些挑战对于满足负载需求、减少排放以及实现与全球公平性和净零目标一致的能源转型至关重要。

传统上,发电厂的容量通常通过复杂的数学模型进行估算,这些模型不仅耗费大量人力和时间,而且具有确定性。传统的预测方法包括时间序列分析、回归分析、统计负荷预测、专家系统、模拟模型和负荷曲线分析。然而,环境因素如气温和大气压等复杂变量使这些方法在电力生产性能预测方面面临更大挑战。传统的物理方法通常依赖于数值天气预测模型,但这些模型资源依赖性强,难以适应快速变化的环境条件。相比之下,统计方法如自回归移动平均、贝叶斯方法、卡尔曼滤波、马尔可夫链模型和灰色理论被广泛使用。尽管这些方法在预测领域中较为流行,但它们通常依赖于线性模型,这在长期预测中限制了其有效性。

机器学习(ML)因其处理复杂非线性关系、适应性、自我学习能力和高效管理高维数据的能力,成为电力预测的高效方法。ML模型在大数据集上表现出色,能够有效抵御噪声,具备可扩展性,并能整合多种数据源。传统的短期负荷预测时间序列方法可以通过人工神经网络(ANN)得到显著增强。这些网络在结合粗糙集理论和反向传播技术后,可以实现更高的预测精度。虽然ANN在许多应用中表现优异,但它们通常需要大量数据集以实现最佳性能,这与模糊逻辑系统不同。此外,遗传算法在平衡ML的优势与计算效率方面也展现了潜力,特别是在住宅负荷调度方面。在发电厂中,ANN被越来越多地用于预测不同运行条件下的性能。例如,Smrekar等人在燃煤发电厂中利用ANN模型,结合锅炉和涡轮参数,以最小的可控变量预测发电量。?olak在柴油联合发电厂中也开发了ANN模型,取得了极高的预测精度(R2=0.99073)。尽管这些ANN模型提升了预测精度,但它们依赖于高分辨率的传感器数据,这限制了其在传感器数据有限的发电厂中的适用性。随后,Tüfekci通过使用15种回归方法预测联合循环发电厂(CCPP)的每小时发电量,通过RMSE和MAE进行基准测试。这项工作突出了回归技术的多功能性,但缺乏对现代集成方法的直接比较。Siddiqui等人通过评估五种ML算法,识别出GBRT在最小化RMSE和绝对误差方面表现更优。然而,他们的分析使用了通用的UCI CCPP数据集,这引发了关于模型适应特定地区挑战(如燃料变化和气候条件)的疑问。Yi等人结合深度神经网络(DNN)与Transformer编码器块,利用自注意力机制来提高CCPP中的时间特征提取能力。Grimaccia等人则将ANN与ISO 50001标准结合,以优化意大利热电厂的能源管理,实现了显著的节能效果。

近年来,先进的建模和优化算法被广泛应用于提高现代能源系统的性能、效率和可持续性。Ashraf等人在660兆瓦的超临界燃煤发电厂中应用了工业4.0的数据驱动运营管理方法,使用多种线性回归(MLR)、ANN和最小二乘支持向量机(LSSVM)过程模型来建模和优化发电机功率。他们发现LSSVM在外部验证中表现优于MLR和ANN,并且通过适度调整热电运行参数,平均提高了发电机功率约1.74%(50%负载)、1.80%(75%负载)和1.0%(100%负载)。Nguyen等人回顾了ANN在预测船舶燃料消耗中的应用,强调了它们在建模操作和环境因素之间复杂非线性关系方面的能力,而无需显式的数学公式。他们发现基于ANN的黑箱模型在预测精度上通常优于传统统计方法,为优化燃料使用和减少温室气体排放提供了巨大潜力。在另一项研究中,Nguyen等人突出了现代ML技术,特别是集成模型和可解释AI,在预测多种生物质来源的生物炭产量和特性方面的前景。他们还强调了模型可解释性和敏感性分析在识别关键生物质特性方面的重要性。Le等人开发了一种混合建模方法,结合现代ML方法,包括自适应提升(AdaBoost)和提升回归树(BRT),与Shapley加性解释(SHAP)相结合,以实现生物炭产量和近似成分的高精度预测。他们的结果表明,BRT模型表现出色,而SHAP分析揭示了温度作为影响生物炭结果的最关键因素。Ashraf和Dua引入了数据信息集成神经网络(DINN),通过在损失函数中加入变量相关性信息来提高预测精度,适用于多种能源系统应用,如建筑能效(冷却/加热)和工业燃气轮机发电。他们展示了DINN在预测热效率、发电量和热率方面的建模精度超过0.85。此外,Ashraf和Dua提出了一种数据驱动的鲁棒优化框架,利用其DINN算法对燃煤和联合循环燃气发电站进行建模和优化,实现了二氧化碳排放的年减少量,分别为约200±10千吨和62±20千吨。

尽管在电力生成中应用了大量机器学习技术,但在孟加拉国的重油发电厂(HFO)中仍存在关键空白。由于燃料短缺、基础设施限制以及湿热的气候条件,这些因素独特地影响了HFO发电厂的运行。现有研究要么依赖于理想化的数据集,要么专注于更清洁的燃料和密集的传感器网络,忽略了在发展中国家普遍使用的HFO。为了填补这一空白,本研究使用了近7年的本地化、发电厂级别的数据,评估了三种ML算法(KNN、ANN和GBRT)的性能。模型结合了环境条件和运营数据,以优化在现实约束下的预测,从而填补了文献中关于区域和方法论方面的空白。通过准确预测发电量和相应的燃料需求,这种方法使发电厂运营商能够在燃料价格较低时战略性地采购和储存燃料,确保在高峰需求期间的可用性,并缓解燃料短缺和价格波动的影响。模型性能通过关键指标(MAE、RMSE和R2)进行评估,选择了最有效的算法来预测特定日期的燃料消耗和能源生成(EG)。

本研究中使用的数据集涵盖了近7年(2403天)的每日记录,每个记录包含7个变量:工作时间(WHs)、燃料消耗(FC)、辅助消耗(AC)、大气温度(AT)、相对湿度(RH)、大气压(AP)和能源生成(EG),共计16,821条数据。大气条件(AT、RH、AP)从公开的气象来源收集,而WH、FC、AC和EG则从发电厂的历史记录中获取。这种方法与Faiz等人的研究一致。通过散点图可视化了参数之间的关系,并基于这些散点图构建了相关系数矩阵。结果揭示了重要趋势:WH、FC和AC与EG之间表现出非常高的正相关性(均≥0.99),表明它们是EG的强预测因子。这些变量之间也表现出强烈的相互关联(r≈0.99),说明运营参数相互关联。AT和RH与EG之间的正相关性适中(r≈0.35和0.32),表明环境条件对发电量的影响较为温和。AP与EG、FC和WH之间表现出适中的负相关性(r=-0.47、r=-0.47和r=-0.48),说明较低的AP与较高的发电活动和燃料消耗相关。

这些发现强调了运营和环境参数在预测中的重要性,其中EG与WH、FC和AC的关联最为紧密。环境参数如AT、RH和AP的中等影响支持它们作为ML建模中的次要预测因子。

数据准备阶段,研究者选择了WH、FC、AC、AT、RH和AP作为输入变量,EG作为输出变量。数据集被随机分为9:1和8:2的比例,其中较大的部分用于训练,较小的部分用于测试或评估模型。类似的比例被Siddiqui等人满意地使用。此外,将10%的训练数据设为验证数据,用于监控损失并防止模型过拟合。考虑到数据集的规模,10%的测试数据提供了足够大且具有代表性的样本进行评估,而较大的训练集也有助于模型高效地学习稳健模式。

在算法选择方面,研究考虑了三种算法:KNN、ANN和GBRT。KNN因其简单性和在无需复杂训练过程的情况下捕捉局部数据关系的能力而被选中。然而,KNN的局限性在于维度诅咒和预测时的高计算成本,这降低了其在大规模和高维数据集中的可扩展性。ANN能够学习分层特征表示,并在训练后进行高效的推理,使其在这些场景中更为有效。然而,ANN通常需要大量数据集和仔细的超参数调整,并且容易过拟合,这在较小或表格型数据集中可能限制其性能。GBRT则通过处理异构特征、捕捉复杂的非线性依赖关系,并且通常在较少数据和调整努力下实现高精度,从而解决这些问题。通过评估这三种算法,本研究比较了经典和先进的ML方法在预测能源输出方面的表现。

KNN算法是一种简单但高效的ML技术,适用于回归和分类问题。作为一种非参数方法,它不假设数据分布的具体形式,而是依赖于数据点之间的距离进行预测。在分类任务中,KNN通过选择其K个最近邻的最常见类别来分配类别标签。在回归任务中,它通过取K个最近邻的值的平均值来进行预测。K值的选择至关重要,因为较小的K值会导致高方差和过拟合,而较大的K值则会平滑预测并增加偏差。性能还依赖于距离度量和数据的维度。常用的度量是欧几里得距离,其定义如上所述。

ANN受到人类大脑神经过程的启发,通常由三个主要层组成:输入层、隐藏层和输出层。这些网络的核心在于激活函数,它为系统引入非线性,使网络能够建模复杂的模式。ReLU是一种常见的激活函数,其定义如上所述。在应用激活函数之前,神经元通过加权和(z)计算其输入的加权总和。激活函数随后使用这个值来决定神经元的输出。这一过程至关重要,因为它允许网络学习和表示数据中的非线性关系,这对图像识别和语言处理等任务尤为重要。在多层感知机中,训练包括两个阶段:前向传播,其中输入通过网络传播以产生输出;反向传播,其中误差被送回各层以更新权重和偏置,从而提高模型准确性。

GBRT是一种强大的集成学习方法,通过结合多个弱学习者(通常是决策树)来提高模型的准确性。它通过迭代构建模型,利用梯度下降在函数空间中进行错误纠正。初始预测通常为目标值的均值,GBRT通过在每一轮中拟合新的树来更新模型,这些树纠正前一轮的错误,并通过学习率缩放其贡献。这一过程最小化损失函数,并增强模型处理非线性关系和复杂特征交互的能力。

在性能评估方面,研究使用了多种指标,包括平均绝对误差(MAE)、均方误差(MSE)和均方根误差(RMSE)。这些指标用于衡量预测值与实际值之间的差异。在实验中,GBRT算法在测试集上的表现优于KNN和ANN,显示出更高的准确性和更低的误差。在随机选择的样本中,GBRT的预测结果更接近实际值,表明其在处理实际数据时的稳健性。此外,GBRT在处理环境变量和运营数据之间的复杂关系时表现出色,为发电厂的燃料需求和电力生成预测提供了可靠的方法。

研究结果表明,GBRT模型在预测电力需求和燃料消耗方面具有显著优势。在9:1数据划分下,GBRT在测试集上的RMSE为1.102,而其他模型的RMSE分别为3.891(KNN)和1.519(ANN)。这说明GBRT在处理有限数据集时仍能保持较高的预测精度。此外,GBRT的R2值为0.9994,远高于KNN和ANN的R2值。这表明GBRT能够更有效地解释目标变量的方差,从而提供更准确的预测。在8:2数据划分下,GBRT的RMSE为1.266,而KNN和ANN的RMSE分别为3.891和1.519。尽管在8:2划分下,模型的预测误差略高,但GBRT依然表现出色,说明其在不同数据划分下的鲁棒性。

此外,研究还比较了GBRT模型与平均预测方法的性能。平均预测方法仍然在孟加拉国的发电厂中使用,它通过计算不同年份相同日期的平均值来预测输出。然而,GBRT模型在燃料消耗和能源输出的预测上表现出更高的准确性和更低的误差。例如,在燃料消耗预测中,GBRT的MAE为98.570,RMSE为128.349,R2为0.623,而平均预测方法的MAE为134.622,RMSE为164.664,R2为0.379。在能源输出预测中,GBRT的MAE为20.273,RMSE为26.451,R2为0.625,而平均预测方法的MAE为27.838,RMSE为33.982,R2为0.381。这些结果表明,基于ML的方法能够更有效地捕捉目标变量与环境条件之间的复杂依赖关系,从而显著提高预测性能。GBRT模型的优越性如图8所示,强调了其在提供更准确和可靠预测方面的能力,优于传统的平均方法。

研究还分析了能源消耗模式,发现其具有季节性依赖,夏季(6月和7月)的高峰需求与孟加拉国夏季的高温(可达45°C)和高空调需求相关,而冬季(12月和1月)的低需求则与较低的气温(约17°C)有关。此外,数据集反映了新冠疫情期间的变化,特别是在2019年和2020年,由于封锁措施导致办公室、工厂和购物中心关闭,显著降低了能源消耗。这一时期显示出燃料消耗和能源输出的明显下降,突显了社会经济因素对发电厂运行的影响。

虽然数据集由连续的每日观测组成,但研究并未进行滞后变量或基于自相关性的特征提取。相反,GBRT算法直接基于每日协变量进行训练,从而隐式地捕捉输入特征中的时间依赖性和非线性相互作用。之前的研究表明,基于树的集成方法在能源相关应用中可以实现强大的预测性能,无需复杂的预处理。然而,预测研究也指出,显式的滞后变量、日历效应或自相关性特征的引入通常能带来性能提升,特别是在像全球能源预测竞赛这样的竞争性环境中。因此,尽管当前的方法展示了GBRT从可用的每日数据中提取有用预测结构的能力,但引入工程化的滞后特征被认为是未来工作的潜在方向。

此外,本研究的预测模型基于发电厂的历史运营和环境数据开发,因此在数据收集期间所体现的模式和限制条件是内生的。尽管这些历史关系可以被有效捕捉,但预测准确性可能会受到突然的政策变化、电网需求变化或超出训练集范围的操作指令的影响。因此,研究结果应被解释为在与训练数据条件相似的情况下进行的预测。通过引入实时电网需求信号或相关政策和市场参数作为外生输入,或采用适应性或在线学习方案,可以增强模型在动态运营场景下的稳健性,这也是未来研究的潜在方向。

本研究的结论表明,机器学习模型(包括KNN、ANN和GBRT)在预测HFO发电厂的电力需求和燃料消耗方面提供了可行的替代方案。使用2017年至2023年的七年运营数据,研究证明了机器学习在优化发电厂性能方面的潜力。在所有测试模型中,GBRT在9:1训练-测试划分下取得了最高的准确性,R2达到0.9994,这表明它在解释目标变量的方差方面比KNN和ANN更有效。从实际角度来看,开发的机器学习模型为运营规划和资源管理提供了显著优势。准确的燃料需求预测能够优化燃料采购策略,特别是在应对燃料价格波动时。除了其直接应用外,该研究还为全球向数据驱动的能源管理过渡做出了贡献,展示了机器学习如何提高发电厂效率、减少运营成本并应对燃料短缺问题。这些发现突显了人工智能在能源部门的潜力,为全球范围内可持续和优化的电力生产提供了可扩展的解决方案。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号