
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于集成学习的中国干旱与湿润区参考蒸散发(ETo)估算模型优化研究
【字体: 大 中 小 】 时间:2025年05月29日 来源:Computers and Electronics in Agriculture 7.7
编辑推荐:
针对气象数据缺失地区ETo估算难题,研究人员采用CatBoost等6种集成学习模型,基于中国20个站点60年数据,系统评估不同输入组合与数据集规模下的性能。发现CatBoost在R2>0.91的精度下显著降低数据依赖,揭示RH和Ra是区域差异关键因子,为全球多气候带农业水资源管理提供方法论参考。
在全球气候变化背景下,农业水资源管理面临严峻挑战,其中参考蒸散发量(ETo)的精准估算是灌溉系统设计的核心依据。传统FAO56-Penman-Monteith(PM)方法虽精度高,但依赖完整气象数据(如风速U2、太阳辐射Rs等),在数据稀缺地区应用受限。中国作为气候类型复杂的农业大国,干旱与湿润区降水差异显著(干旱区P≤200 mm yr-1,湿润区P≥800 mm yr-1),亟需开发适应不同数据条件的ETo估算方案。
为解决这一难题,河海大学等机构的研究团队创新性地采用6种集成学习模型(包括AdaBoost、CatBoost、XGBoost等),基于中国20个气象站1960-2019年的长期观测数据,首次系统评估了模型在完整/缺失数据条件下的跨气候带适用性。研究发现,CatBoost在R2=0.93的精度下展现出最优性能,仅需温度(Tmax/Tmin)结合部分指标即可实现R2>0.91的估算,且数据集规模对精度影响微弱(RMSE差异<0.025)。该成果发表于《Computers and Electronics in Agriculture》,为全球多气候带农业水管理提供了兼顾精度与实用性的技术范式。
关键技术方法包括:1) 基于国家气象信息中心60年站点数据构建多气候带数据集;2) 采用FAO56-PM作为基准值;3) 对比6种集成学习模型在全参数组合(C7)下的性能;4) 设计7种输入组合(如仅温度、温度+辐射等)和4种数据集规模(20-60年)的对比实验;5) 通过R2、RMSE等指标评估模型鲁棒性。
模型精度比较
在全数据输入条件下,CatBoost、GBDT和XGBoost表现最优,其中CatBoost训练效率比随机森林(RF)提升50%,内存占用比支持向量机(SVM)减少70%。Extra trees模型虽在训练集表现优异(R2>0.999),但测试集出现显著过拟合。
输入组合影响
温度+辐射(Ra)组合在干旱区精度最高(R2=0.92),而湿润区需加入相对湿度(RH)才能达到同等精度,揭示RH和Ra是造成区域差异的关键因子。
数据集规模效应
延长数据年限至60年虽未显著提升精度(RMSE降幅<2.5%),但使模型稳定性提高23%,表明长期数据主要增强抗干扰能力而非基础精度。
讨论与结论
该研究突破性地证明:1) 集成学习可有效克服PM公式的数据完整性限制,CatBoost的"有序提升"算法对缺失数据具有天然鲁棒性;2) 区域气候特征决定关键输入因子选择,干旱区应优先保障辐射数据,湿润区需重点监测RH;3) 模型稳定性与数据年限正相关,但20年数据已可满足基础精度需求。这些发现为"一带一路"沿线数据稀缺地区的智慧农业建设提供了可推广的技术路径,未来研究可进一步探索模型在极端气候事件中的适应性。
生物通微信公众号
知名企业招聘