基于堆叠集成学习的阿姆河盆地干旱区参考作物蒸散量精准预测研究
《Smart Agricultural Technology》:Enhancing reference crop evapotranspiration prediction in arid regions: a stacking ensemble learning approach for the Amu Darya basin
【字体:
大
中
小
】
时间:2025年10月23日
来源:Smart Agricultural Technology 5.7
编辑推荐:
本研究针对阿姆河盆地(ADB)干旱区气象数据稀缺条件下参考作物蒸散量(ETo)预测难题,创新性地融合决策树(DT)、广义线性模型(GLM)、K近邻(KNN)和支持向量回归(SVR)四种机器学习算法,构建了堆叠集成模型(stkENS)。该模型在棉花、水稻和高粱作物ETo预测中表现出优异性能(R2>0.96,RMSE<0.65 mm d-1),为干旱区农业水资源精准管理和灌溉调度提供了可靠技术支撑。
在干旱半干旱地区,农业水资源短缺问题日益严峻,精准预测作物需水量是实现节水灌溉和粮食安全的关键。阿姆河盆地(Amu Darya Basin, ADB)作为中亚重要农业区,主要种植棉花、水稻和高粱等作物,但该地区气象观测站点稀疏、历史数据有限,传统FAO-56 Penman-Monteith(PM)模型需要大量气象参数输入,在数据稀缺条件下应用受限。因此,开发适用于干旱区的简化而准确的参考作物蒸散量(ETo)预测模型具有重要意义。
为解决这一难题,研究人员在《Smart Agricultural Technology》发表论文,创新性地提出了一种堆叠集成学习框架(stacking ensemble, stkENS),该框架融合了决策树(Decision Trees, DT)、广义线性模型(Generalized Linear Models, GLM)、K近邻(K-Nearest Neighbours, KNN)和支持向量回归(Support Vector Regression, SVR)四种机器学习算法,以XGBoost作为元学习器进行集成优化。研究利用ADB地区三个气象站点(38149、38262、38392)1983-2018年的日尺度气象数据,包括最高最低气温(Tmax/Tmin)、风速(U2)、太阳辐射(Rn)、露点温度(DewP)等变量,以FAO-56 PM计算的ETo为基准值,构建了五种输入变量组合方案(C1-C5),通过5折交叉验证训练模型,并采用SHAP(Shapley Additive Explanations)方法解析特征重要性。
主要技术方法包括:1)基于FAO-56 PM公式计算每日ETo作为真值;2)采用决策树、广义线性模型、K近邻和支持向量回归作为基学习器;3)使用XGBoost作为堆叠集成的元学习器;4)通过5折交叉验证防止过拟合;5)利用SHAP值分析变量贡献度;6)采用决定系数(R2)、均方根误差(RMSE)、平均绝对误差(MAE)和相对偏差(RB)评估模型性能。
stkENS在三种作物ETo预测中均表现最佳,其预测值与FAO-56 PM基准值无显著差异(p>0.05)。具体而言,stkENS的ETo预测与基准值相比,棉花偏差仅0.01 mm d-1,水稻偏差0.01 mm d-1,高粱偏差为0。模型整体R2达到0.96以上,RMSE和MAE分别低至0.65 mm d-1和0.42 mm d-1,显著优于单一模型(DT的R2为0.73,KNN为0.89)。相对不确定性分析显示stkENS仅为10.44%,而DT、GLM、KNN和SVR分别为34.49%、23.29%、14.77%和16.95%。
所有模型均能捕捉到ETo的季节变化规律,4-9月生长季蒸散量最高。stkENS和KNN在预测各作物ETo时表现出最优的时序一致性和稳定性,而DT模型存在明显过拟合现象,特别是在棉花和水稻预测中偏差较大。不同作物ETo范围存在差异:棉花和水稻日ETo最高达7.5 mm,而抗旱作物高粱仅2.5 mm,这表明高粱更适合在缺水地区种植。
特征重要性分析表明,温度相关变量(Tmax、Tmin、Rn)在DT、KNN和SVR中贡献度最高(90%以上),而GLM中最重要变量为风速(U2)。SHAP分析揭示KNN对stkENS集成预测的正向贡献最大,其次是GLM,而SVR和DT的影响相对较小。露点(DewP)和蒸汽压参数(ea、es)在GLM中也显示较高重要性。
在不同输入组合(C1-C5)中,包含温度、辐射、风速和露点的C5组合表现最优,stkENS在该组合下预测棉花、水稻和高粱ETo的R2均接近0.99,RMSE和MAE最低(棉花:0.25 mm d-1和0.17 mm d-1;水稻:0.23 mm d-1和0.14 mm d-1)。泰勒图和散点图分析进一步证实stkENS在所有情景下均最接近1:1理想线。
本研究开发的stkENS堆叠集成模型成功解决了ADB干旱区在气象数据有限条件下的ETo精准预测问题。该模型通过有效整合多个弱学习器的优势,显著提升了预测精度和稳定性,其性能优于任何单一机器学习模型。研究发现温度相关变量是ETo预测的最重要因子,这与干旱区能量驱动蒸散过程的理论一致。
该研究的实际意义在于:1)为干旱区农业水资源管理提供了可靠的ETo预测工具,尤其适用于气象站点稀疏地区;2)生成的精准ETo数据可用于推导作物水分胁迫指数、土壤水分亏缺量和季节水分预算,为灌溉预警提供科学依据;3)不同输入组合的验证为实际应用提供了灵活性,用户可根据数据可获得性选择适当模型。
未来研究可考虑将地表阻力等物理过程参数融入机器学习框架,发展物理机制与数据驱动相结合的混合模型,进一步提升模型在极端天气条件下的泛化能力。同时,整合遥感数据和再分析资料,通过数据同化技术解决干旱区数据不均问题,也将是重要研究方向。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号