《Engineering Applications of Artificial Intelligence》:Probabilistic multi-step prediction of wind power based on online feature extraction and parallel output network structure
编辑推荐:
风能在缓解能源短缺和减缓全球变暖方面发挥着关键作用。大规模风电并网需要准确的概率预测以维持系统稳定性。然而,产生可靠的多步概率预测具有挑战性,因为风电功率受到风速和风向等外部变量的强烈影响。由于这些变量随时间变化,潜在的数据分布也会发生偏移,这一挑战通常被称为
风能在缓解能源短缺和减缓全球变暖方面发挥着关键作用。大规模风电并网需要准确的概率预测以维持系统稳定性。然而,产生可靠的多步概率预测具有挑战性,因为风电功率受到风速和风向等外部变量的强烈影响。由于这些变量随时间变化,潜在的数据分布也会发生偏移,这一挑战通常被称为概念漂移(concept drift)。传统的特征选择技术往往不足以捕捉概念漂移下不断演变的输入模式。为解决这一局限,本文提出了一种在线特征提取(Online Feature Extraction, OFE)框架。该框架在概念漂移发生时动态重新选择输入特征,并利用新选定的特征集生成风电功率特征,从而避免由输入不一致导致的频繁模型重建。为充分利用提取的特征,研究人员设计了一种具有并行输出网络结构的混合模型,用于多步概率风电预测。该模型利用了时间卷积网络(Temporal Convolutional Network, TCN)和双向长短期记忆网络(Bidirectional Long Short-Term Memory, BiLSTM)在时间序列学习中的优势。通过并行输出结构在单次前向传播中生成所有多步概率预测,避免了自回归策略所需的迭代推理,使其特别适用于实时电网运行。实验结果表明,与基准模型相比,所提出的方法将概率预测可靠性提高了20%以上。
## 研究背景与问题
风电作为一种清洁、高效且广泛可获得的可再生能源,具有不产生温室气体、低风速下仍可高效发电、分布区域广泛等优势,对实现碳中和与推动能源革命至关重要。然而,风能固有的间歇性和波动性给电网保持稳定可靠的功率流带来困难。为应对这一挑战,需要开发高适应性的风电预测模型来管理波动的风况和气候变化的影响。
风电预测可按空间和时间尺度进行分类。空间尺度包括风机级、电场级和区域级预测;时间尺度涵盖中长期(超过一个月)、短期(1-7天)和超短期(小于24小时)预测。短期预测有助于电力调度和交易决策,超短期预测则用于风电机组的实时调整及风电并网的供需平衡。由于气象条件、地形和季节变化导致风速和风向的高变异性,风电功率预测存在显著的不确定性和随机性,尤其在更短的时间尺度上表现突出。
现有风电预测方法主要包括物理方法、统计方法和深度学习方法。物理方法通过复杂模型模拟风能发电过程,虽可解释性强但计算复杂度高;统计方法基于历史数据进行分析预测,简单易实现但对数据依赖性强、鲁棒性不足。近年来,深度学习方法因其识别和理解复杂非线性模式的能力而日益重要,包括长短期记忆网络(LSTM)、门控循环单元(GRU)、卷积神经网络(CNN)和时间卷积网络(TCN)等。其中,TCN因其卷积网络结构支持并行计算,具有速度快、稳定性好、不存在梯度问题等优势,且通过扩张卷积有效处理长期序列依赖。
概率风电预测相比仅提供单值估计的确定性预测,能提供更全面的信息。通过将不确定性纳入预测,概率预测可提供预测区间或条件概率密度分布,在电力系统风险管理和决策过程中发挥更突出的作用。现有概率预测方法主要分为参数法和非参数法:参数法如贝叶斯学习和贝叶斯网络,通常假设固定的误差项分布;非参数法则不对数据分布施加人为假设,包括上下界估计(LUBE)、分位数回归(QR)和核密度估计(KDE)等,在实践中应用更为广泛。
当前多步风电预测大多采用自回归预测范式,即通过将先前预测输出反馈回模型来顺序生成未来值。该策略在点预测任务中应用广泛,但在概率预测中存在更大挑战:递归使用预测值可能导致确定性误差和分布不确定性在预测步长间传播累积,造成预测误差累积。因此,需要能够不依赖递归预测而产生高效稳定多步概率预测的模型架构。
准确的风电预测很大程度上依赖于选择对预测结果影响最大的变量。现有研究采用了大量统计和气象特征,但变量过多会使模型复杂化并阻碍有效训练。因此,识别最具信息量的特征成为关键步骤。现有特征选择方法包括基于皮尔逊相关系数(PCC)、斯皮尔曼相关系数(SCC)、肯德尔相关系数(KCC)等线性或非线性相关性分析的方法,以及互信息(MI)、最大信息系数(MIC)等揭示非线性复杂关联的方法,还有最小绝对收缩和选择算子(LASSO)等可缓解高维数据多重共线性的方法。
然而,上述特征选择方法存在一个共同局限:它们均以离线方式运行,即使用预先收集的历史数据在固定环境中一次性完成特征选择。由于依赖静态数据集,所选特征固定不变,无法随时间适应变化。这种方法虽计算成本较低,但不适用于存在概念漂移的风电预测场景。概念漂移指数据分布或数据生成过程随时间发生变化,在此背景下,特征与目标变量之间的相关性也可能演变。离线方法无法解释这些偏移,导致模型性能下降。
## 研究开展与核心贡献
为应对上述挑战,研究人员提出了考虑概念漂移的在线特征提取框架,以及基于并行输出网络结构的分位数回归时间卷积网络-双向长短期记忆网络(Quantile-Regression-based Temporal Convolutional Network-Bidirectional Long Short-Term Memory, QRTCN-BiLSTM)模型,用于概率多步风电预测。该研究为概念漂移下特征选择困境这一尚未充分探索的问题提供了新视角。
主要贡献包括三方面:第一,提出在线特征提取框架以解决概念漂移下的特征选择困境,结合漂移触发特征重选与自适应特征提取,确保即使选定特征集变化也能保持一致的输入表示,避免重复模型重建;第二,开发基于TCN和BiLSTM的并行输出概率预测模型,通过为每个预测时域构建并行分支并同时生成多个分位数,在单次前向传播中产生完整的多步概率预测,有效缓解误差累积并提高计算效率;第三,在三个代表不同概念漂移场景的真实风电数据集上进行广泛实验,每个数据集进一步划分为四个季节子集,结果表明所提方法有效解决了特征选择困境,相比离线特征选择和现有特征提取方法具有明显性能优势。
## 关键技术方法
研究所用关键技术方法包括:样本来源于澳大利亚三个不同区域的风电场数据,包含数值天气预报(Numerical Weather Prediction, NWP)数据和风电 supervisory control and data acquisition(SCADA)系统记录,采样时间分辨率为每小时,涵盖2012年1月1日至2013年11月31日期间的数据。
在线特征提取框架包含两个核心模块:在线特征选择模块和在线特征提取模块。框架执行漂移触发特征重选,当检测到概念漂移时动态重新选择特征,随后基于新特征集进行自适应特征提取生成风电功率特征,保持输入结构稳定。概念漂移检测采用基于模型性能监控的方法,通过跟踪预测误差的变化识别漂移发生时机。
并行输出QRTCN-BiLSTM模型(记为PORT)作为预测模型,结构包含编码层、解码层、拼接层和并行输出层。编码层采用TCN处理历史发电数据,利用其扩张因果卷积捕获长期时序依赖;解码层使用BiLSTM进一步提取双向时序特征;并行输出层为每个预测步长构建独立分支,各分支同时输出多个分位数值,实现多步概率预测的单次生成。
概率预测采用分位数回归方法,通过优化分位数损失函数同时估计多个条件分位数,覆盖不同置信水平下的预测区间。确定性评估采用平均绝对误差(MAE)和均方根误差(RMSE)指标;概率评估采用预测区间覆盖概率(PICP)、预测区间平均宽度(PINAW)和区间锐度得分(CWC)等指标。
## 研究结果
**在线特征提取框架**:该部分详细介绍了OFE框架的设计原理与实现机制。框架通过持续监控模型性能变化识别概念漂移事件,触发特征重选过程。当检测到漂移后,框架重新计算各特征与目标变量的相关性或重要度,形成新的最优特征子集。为避免输入维度变化导致的模型重建问题,框架采用自适应特征提取机制,将变维特征映射到固定维度的特征空间中,生成 consistent 的风电功率特征表示。这种设计使得预测模型可在不重建的情况下持续适应动态变化的输入结构。
**并行输出QRTCN-BiLSTM模型**:该部分阐述了PORT模型的架构细节。编码层中TCN利用扩张因果卷积提取历史序列的多尺度时序特征;解码层BiLSTM通过前向和后向两个方向的LSTM网络同时捕捉过去和未来的上下文信息;拼接层融合TCN和BiLSTM的输出表征;并行输出层为每个预测时域h∈{1,2,...,H}构建独立的全连接分支,各分支分别输出指定分位数集合{τ
1,τ
2,...,τ
K}对应的预测值。这种并行结构避免了自回归策略中逐步递推产生的误差传播,各步预测基于同一潜在表征独立生成,保证了多步预测的一致性和稳定性。
**数据集分析与划分**:研究选用澳大利亚三个不同区域风电场数据,包含NWP数据和SCADA系统记录的风电发电数据,时间采样分辨率为1小时,覆盖2012年1月1日至2013年11月31日。数据按季节划分为春、夏、秋、冬四个子集,以评估模型在不同季节概念漂移场景下的表现。预处理步骤包括缺失值处理、异常值检测与修正、数据标准化等,确保数据一致性。
**确定性预测评估**:实验结果表明,在所有方法中,OFE框架取得了最低的MAE和RMSE。具体而言,与离线特征选择方法LASSO-QRTCN相比,OFE在三个场景中平均分别降低RMSE达32.121%、28.046%和21.693%;与离线特征提取方法相比,OFE平均优化MAE达22.507%。这表明在线特征提取策略能够有效适应概念漂移带来的数据分布变化,提升确定性预测精度。
**概率预测评估**:概率预测结果显示,所提出的PORT模型在预测区间可靠性和锐度方面均优于基准模型。并行输出结构相比自回归策略,显著降低了多步预测中的误差累积效应,概率预测可靠性提升超过20%。在不同季节子集上的交叉验证表明,模型对季节性概念漂移具有良好的适应性和鲁棒性。
## 讨论总结与结论
研究结论部分指出,由于风电的随机特性,概念漂移在风电时间序列中普遍存在。传统特征选择和提取方法往往难以适应这种不断演变的数据模式。为此,该研究提出的OFE框架能够动态响应数据变化调整特征集,无需频繁重建整个预测模型。该框架通过监控概念漂移对模型性能的影响,触发特征重选和自适应特征提取过程,生成 consistent 的输入表征供后续预测模型使用。
研究人员开发的并行输出QRTCN-BiLSTM模型充分利用了在线提取的特征,通过TCN和BiLSTM的协同编码以及并行输出结构,实现了高效稳定的多步概率预测。模型在单次前向传播中完成所有预测时域的多分位数估计,避免了递归推理带来的误差放大和计算开销。
在三个具有不同概念漂移特征的真实数据集上的广泛实验验证了所提方法的有效性。结果表明,OFE框架成功解决了概念漂移下的特征选择困境,相比离线方法和现有特征提取技术,在确定性预测精度和概率预测可靠性方面均取得显著提升。该研究为风电并网调度和电力市场运营中的实时决策提供了更可靠的技术支撑,论文发表于《Engineering Applications of Artificial Intelligence》。