SIFA:一种基于封装式特征选择(Wrapper-based Feature Selection)与混沌蝠鲼优化(Chaotic Manta Ray Optimization)的两阶段自适应集成框架用于太阳辐照度(Solar Irradiance, SI)预报
《Scientific Reports》:SIFA: A two-stage adaptive ensemble framework for solar irradiance forecasting using a wrapper-based feature selection and chaotic manta ray optimization
编辑推荐:
准确的太阳辐照度(Solar Irradiance, SI)预报对于有效管理太阳能系统日益重要,因为其功率输出直接依赖于SI。尽管文献中已提出若干SI预报模型,但仍面临至少以下局限之一:难以建模非线性数据、计算资源需求高、以及常难以识别最佳特征子集以提高精度。
准确的太阳辐照度(Solar Irradiance, SI)预报对于有效管理太阳能系统日益重要,因为其功率输出直接依赖于SI。尽管文献中已提出若干SI预报模型,但仍面临至少以下局限之一:难以建模非线性数据、计算资源需求高、以及常难以识别最佳特征子集以提高精度。为解决上述挑战,本研究提出一种新的多阶段预报方法——SIFA,用于精确的SI预测,旨在增强光伏(Photovoltaic, PV)电站的稳定性与效率。该方法包含两个主要阶段:第一阶段采用结合随机森林(Random Forest, RF)与顺序前向选择(Sequential Forward Selection, SFS)的混合特征选择策略来识别最具信息量的特征,其中SFS探索候选特征子集,RF评估各子集以选出最有效的一个;为进一步改善RF性能,其估计器(Estimators)数量采用一种称为IWMRFO的增强型蝠鲼觅食优化器(Manta Ray Foraging Optimizer, MRFO)进行调优,该优化器利用混沌映射(Chaotic Maps)替代随机数发生器以更好地平衡探索(Exploration)与开发(Exploitation),从而避免局部最优并加速收敛。第二阶段将三种有效的机器学习模型——Huber回归(Huber Regressor, HR)、极端随机树(Extra Trees, ET)和极端梯度提升(Extreme Gradient Boosting, XGB)——通过权重向量组合于混合集成方法(SIFA)中,该向量控制各基模型在混合集成中的贡献度;此向量由所提出的IWMRFO优化,从而产生一个在保持稳定泛化能力的同时提升预测精度的自适应集成。该方法在三个常用数据集上进行测试:圣地亚哥(San Diego)数据集、伊斯兰堡(Islamabad)数据集及NASA SI数据集;其性能通过RMSE、MAE、MAPE、MSE及R2等多项评价指标与若干对比模型进行比较。数值结果表明,在重复实验中,SIFA在三个评估数据集上均取得了低于竞争模型的平均预报误差,表明其是更高精度SI预测的有力替代方案。
论文解读:SIFA两阶段自适应集成框架用于太阳辐照度预报的研究
研究背景与意义
传统化石燃料面临枯竭威胁及温室气体排放问题,可再生能源尤其是太阳能备受关注。太阳能光伏(Photovoltaic, PV)电站的功率输出直接取决于太阳辐照度(Solar Irradiance, SI),因此准确的SI预报对PV系统稳定运行至关重要。现有SI预报模型多分为统计模型与机器学习(Machine Learning, ML)/深度学习(Deep Learning, DL)模型,但现有方法普遍存在三方面不足:难以有效建模SI数据的高度非线性关系、计算成本高昂、以及无法筛选出最优特征子集以提升精度。针对这些局限,研究人员开展了此项研究,提出名为SIFA(Solar Irradiance Forecasting Approach)的新型两阶段自适应集成框架,并在《Scientific Reports》发表研究成果。
主要关键技术方法
研究人员采用三个公开数据集进行验证:美国圣地亚哥(San Diego)小时级气象与SI数据集(2016–2021)、巴基斯坦伊斯兰堡(Islamabad)小时级数据集(2010–2021)及NASA SI气象数据集(含风向、风速、湿度、温度及太阳辐照度)。关键技术方法包括:(1)基于随机森林(Random Forest, RF)的顺序前向选择(Sequential Forward Selection, SFS)封装式(Wrapper-based)特征选择方法,并使用改进的带混沌映射与二次插值及小波变异的MRFO(IWMRFO或WMQIMRFO,文中简称为WMRFO)优化RF中决策树数量(n_estimators)这一超参数;(2)改进蝠鲼觅食优化器(Improved Manta Ray Foraging Optimizer, IWMRFO),在标准MRFO链、旋风及 Somersault 觅食行为基础上引入混沌映射(Chaotic Maps,测试了10种一维混沌映射如Logistic、Tent等)替代部分随机数、Morlet小波变异(Morlet Wavelet Mutation, MWM)及二次插值(Quadratic Interpolation, QI)策略以平衡探索与开发并避免早熟收敛;(3)加权混合集成模型,将Huber回归(Huber Regressor, HR)、极端随机树(Extra Trees, ET)与极端梯度提升(Extreme Gradient Boosting, XGB)三基模型之预测值按IWMRFO优化所得权重向量线性组合得到最终预报值。数据经Z-score标准化后按8:2划分为训练集与测试集,各模型独立运行10次并用RMSE、MAE、MAPE、MSE、R2及Wilcoxon符号秩检验(Wilcoxon Signed-Rank Test, WSR)与Friedman平均秩(Friedman Mean Rank, FK)进行统计评估。
研究结果
Enhanced manta ray foraging optimizer: WMQIMRFO
研究人员在标准MRFO基础上融合混沌映射(替换部分随机数与控制链/旋风切换因子Cf)、Morlet小波变异(MWM)策略及二次插值(QI)增强局部搜索能力,提出IWMRFO(WMQIMRFO)。通过10种混沌映射对比实验发现不同映射在不同数据集表现各异,最终选定C2映射(Tent-like)用于San Diego数据集,C3映射(Logistic)用于Islamabad数据集。收敛曲线显示IWMRFO相比标准MRFO、AGTO、GBO、RUN、ARO、EVO、GTO、CDO及未引入混沌之WMRFO具有更快初期收敛速度与更强逃出局部最优能力,在优化基模型权重时取得更低MSE适应度值(FK=2.47优于其他对比元启发式算法)。
Machine learning models: Overview
分别介绍了Huber回归(HR,采用Huber损失函数,对SI中离群值鲁棒)、极端随机树(ET,全量训练且随机选分裂阈值以降低过拟合)及极端梯度提升(XGB,带正则化项的加法集成决策树)的原理与基本公式。
Proposed model: SI forecasting approach (SIFA)
SIFA框架分两步:先用RF-SFS做特征选择(RF的n_estimators由IWMRFO优化),再用IWMRFO优化HR、ET、XGB三基模型预测结果的加权组合权重(PF=w1x1+w2x2+w3x3,w由IWMRFO在限定上下界内搜索使训练集MSE最小)。实验确定San Diego数据集优选特征数为6,Islamabad为4;各基模型超参数(HR之Epsilon、XGB之学习率等)经网格搜索确定取默认值或特定值(XGB学习率0.1),并发现SIFA显著优于任一单一基模型。
Performance evaluation of different chaotic maps
在San Diego数据集上C2混沌映射使IWMRFO表现最佳,Islamabad数据集上C3最佳,据此选定对应映射用于后续SIFA权重优化。
Comparison between IWMRFO and some recent metaheuristic algorithms
IWMRFO在最小化SIFA权重优化目标函数(训练MSE)任务中,Best、Average、Worst、SD及FK均优于或与近期元启发式算法相当,WSR检验表明其在San Diego数据集上与所有对比算法差异显著(p<0.05),在Islamabad上与部分算法(MRFO、AGTO、WMRFO)无显著差异但平均适应度更优。
Performance evaluation of SFS with RF
对比RF-SFS、SelectFromModel with Lasso(SFM)、互信息(Mutual Information, MI)、RF-RFE(Recursive Feature Elimination)及全特征集,RF-SFS所选特征子集使SIFA取得最低RMSE(DS1与DS2均最优),较全特征集最高可降约7%误差,证明封装式SFS结合RF可有效筛选最具信息量且非冗余特征。
Proposed component contribution and comparison with stacking and voting regressors
SIFA与单一基模型(HR、ET、XGB)、投票回归器(Voting Regressor,等权平均)及堆叠回归器(Stacking Regressor,XGB与ET为基学习器HR为元学习器)对比,SIFA在DS2与NASA DS3上FK=1(排名第一),误差指标(RMSE、MAE、MAPE、MSE最小,R2最大)均优于对比方法,WSR检验p<0.05具统计显著性;计算耗时略高于单一ML模型但与Stacking及Voting相当且远低于深度学习模型。
Performance evaluation over DS1 / DS2 / DS3
在San Diego(DS1)、Islamabad(DS2)及NASA SI(DS3)三数据集上,SIFA重复10次独立实验之平均RMSE、MAE、MAPE、MSE均低于对比模型(含PBNN、ET、RF、GPR、LightGBM、LSTM、BiLSTM-AADC、ANN等),R2最高;FK均为1(全面最优),WSR p<0.05拒绝原假设,效应量(Effect Size, Z/√N)>0.5为大效应。相对最相近竞争模型之改进率(Improvement Rate, IR)在DS1为9.0%~17.5%(vs HR),DS2为1%~12%(vs ET)。训练与推理时间高于传统ML但显著低于DL模型。
讨论与结论翻译
研究人员提出SIFA——一种新颖的两阶段太阳辐照度预报方法,旨在提高PV电站稳定性与效率。第一阶段采用SFS技术确定最利于SI精确预报的特征子集,并由RF评估不同子集以选出最有效者;为微调RF之估计器数量,研究人员提出一种改进版MRFO(IWMRFO),其利用混沌映射替代随机数发生器以更好平衡探索与开发、助避局部最优并加速收敛。第二阶段将三种ML模型——HR、ET与XGB——通过由IWMRFO优化之权重向量集成于SIFA方法中,确保优化权重提升所提方法的训练与泛化性能。该方法在三个知名数据集(圣地亚哥、伊斯兰堡及NASA SI)上验证,并与若干其它模型基于RMSE、MAE、MAPE、MSE及R2进行比较。实验结果表明,SIFA在三个数据集上所有评价指标中均显著优于其它模型,改进幅度从1%至95%不等。这些改进证明所提SIFA方法具备增强PV电力系统效率与可靠性、降低运维成本及支持可再生能源并网的强大潜力。尽管SIFA超越若干竞争模型,其较基础ML模型需更多计算资源,此为首要局限应在未来研究中解决以提升效率;此外由于模型组合三个具不同超参数的基模型,彻底调优计算昂贵,构成第二局限亦应后续处理。未来工作将探究SIFA方法应用于质子交换膜燃料电池(PEMFC)剩余使用寿命估算、风能预报、CO2排放预报及非居住建筑能耗预报等问题的性能。