
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于进化多项式特征选择的干旱预测模型构建及其在土耳其安卡拉的验证研究
【字体: 大 中 小 】 时间:2025年06月06日 来源:Ecological Informatics 5.9
编辑推荐:
为解决干旱预测模型复杂性与可解释性难以平衡的问题,研究人员开发了进化多项式特征选择模型(EPEFS),通过整合多项式回归与Lasso特征选择技术,在土耳其安卡拉地区实现了SPI-3/6/12的高精度预测(R2 最高达0.929),为干旱早期预警提供了兼具性能与透明度的新工具。
随着全球气候变化加剧,干旱已成为威胁生态系统和社会经济的重大自然灾害。传统干旱监测指标如标准化降水指数(SPI)虽被广泛应用,但现有预测模型往往陷入两难困境:复杂机器学习模型虽精度高却如同"黑箱",而简单线性模型又难以捕捉非线性气候特征。特别是在土耳其安卡拉这类半干旱地区,如何构建兼具预测精度和物理可解释性的模型,成为水资源管理者面临的紧迫挑战。
针对这一科学难题,来自巴西和意大利的研究团队在《Ecological Informatics》发表了创新性研究成果。他们开发了进化多项式特征选择模型(EPEFS),通过将多项式扩展与Lasso正则化相结合,实现了对SPI指数的精准预测。该研究选取安卡拉地区6个气象站1971-2016年的降水数据,采用时间序列交叉验证策略,系统评估了模型在SPI-3、SPI-6和SPI-12三个时间尺度上的表现。
研究团队运用了三个关键技术方法:1)多项式特征扩展构建包含二次项和交互项的高维特征空间;2)基于Lasso的进化特征选择通过差分进化算法优化变量组合;3)引入复杂度控制参数β平衡模型精度与简洁性。特别值得注意的是,研究采用了4折时间序列交叉验证,有效避免了传统随机划分导致的数据泄露问题。
模型性能分析
EPEFS在三个时间尺度上均展现优越性能,其中SPI-12预测R2
达0.929,显著优于对比模型。泰勒图分析显示,模型预测与观测值相关系数超过0.95,且标准偏差接近1,表明模型能准确捕捉数据波动特征。
关键变量识别
研究通过特征选择发现,位于Polatl?(x2
)、K?z?lcahamam(x3
)、Esenbo?a(x4
)和Nall?han(x5
)的气象站数据对SPI-12预测贡献最大。最优预测方程y=0.466306x2
+0.590777x4
-0.073891x3
x5
-0.139466x5
+0.009325揭示了降水数据的非线性交互效应。
复杂度控制机制
研究创新性地引入β参数控制模型复杂度,实验表明β=0.5时达到最佳平衡。当β从0增至2时,模型变量数从5个降至2个,而SPI-12的RMSE先降后升,证实适度正则化能提升泛化能力。
这项研究的重要意义在于:首先,EPEFS模型突破了传统干旱预测模型"精度-可解释性"的权衡困境,其生成的简明多项式方程可直接用于决策支持系统。其次,研究揭示了安卡拉地区不同时空尺度干旱的主导影响因素,为优化气象监测网络提供了科学依据。最后,提出的进化特征选择框架具有普适性,可扩展应用于其他环境变量的建模预测。
研究团队在讨论部分特别指出,相比KAN(科尔莫戈罗夫-阿诺德网络)和GMDH(数据分组处理方法)等复杂模型,EPEFS在保持相当预测精度的同时,模型复杂度降低60%。未来研究可进一步整合更多气候变量,并探索将该框架应用于其他生态脆弱区的干旱预警系统。这项成果为应对气候变化下的水资源管理挑战提供了重要的方法论创新。
生物通微信公众号
知名企业招聘