编辑推荐:
为解决全球作物产量数据时空分辨率不足问题,研究人员开发 GlobalCropYield5min 数据集,其精度高,对农业研究意义重大。
《利用多源数据和机器学习绘制 1982 - 2015 年全球四大作物 5 分钟分辨率产量地图》一文由来自北京师范大学、中国科学院地理科学与资源研究所等机构的 Juan Cao、Zhao Zhang 等人完成,发表于《Scientific Data》。
在当今世界,粮食安全至关重要,它与每个人的生活息息相关。然而,全球极端气候事件愈发频繁,像俄罗斯和乌克兰的冲突、粮食贸易限制等不稳定因素,都给全球粮食安全带来了巨大挑战。自 20 世纪 90 年代起,全球作物产量虽有显著增长,但受气候波动影响,年产量波动也十分明显。同时,随着人口持续增长和环境压力增大,研究作物产量及其时空变化变得愈发重要。虽然已有一些全球历史作物产量数据集,可这些数据集要么时间不连续,要么空间分辨率低,难以满足研究需求。因此,开发一个高分辨率、长时间的全球作物产量数据集迫在眉睫。
为了攻克这些难题,来自北京师范大学、中国科学院地理科学与资源研究所等机构的研究人员开展了深入研究。研究人员整合卫星数据、气候数据、土壤性质、农业管理实践以及约 12,000 个行政单位的详细普查记录,为每个国家和作物开发了三种机器学习(ML)模型,最终生成了 GlobalCropYield5min 数据集。这一数据集涵盖 1982 - 2015 年全球四大主要作物(玉米、水稻、小麦和大豆)的产量数据,空间分辨率达 5 弧分。
研究人员在研究过程中运用了多种关键技术方法。首先,利用 Google Earth Engine(GEE)平台将所有空间数据聚合到行政单位级别,并重新网格化处理,使其分辨率统一为 5×5 弧分。其次,运用递归特征消除交叉验证(RFECV)自动选择潜在预测变量,再通过贝叶斯优化确定模型最优参数。最后,对比随机森林(RF)、极端梯度提升(XGBoost)和轻量级梯度提升机(LightGBM)三种常用 ML 模型,选取最优模型生成产量地图。
在模型性能评估方面,研究人员对三种 ML 模型进行训练和评估。结果显示,整体模型精度较高,但不同作物和国家的最优模型类型及预测变量组合存在差异。在全球范围内,小麦产量估计的精度最高,R2达到 0.95,RMSE(NRMSE)为 0.46 t/ha(13.1%);玉米次之,R2为 0.93 ,RMSE(NRMSE)为 0.76 t/ha(17.8%);水稻 R2为 0.90,RMSE(NRMSE)为 0.63 t/ha (18.3%);大豆产量估计模型表现相对较弱,R2为 0.86,RMSE(NRMSE)为 0.31 t/ha(15.3%)。
将 GlobalCropYield5min 数据集与记录数据对比,在全球尺度上,四大作物模拟产量与记录数据的 R2均值各异,玉米为 0.85、小麦为 0.82、水稻为 0.76、大豆为 0.78 。RMSE(NRMSE)均值也有所不同,玉米为 0.97 t/ha(24%)、小麦为 0.62 t/ha(21%)、水稻为 1.19 t/ha(28%)、大豆为 0.36 t/ha(18%)。总体而言,玉米和小麦的模拟精度高于水稻和大豆。
与现有全球作物产量产品(SPAM 和 GDHY)相比,GlobalCropYield5min 在多个方面表现更优。无论是在作物产量预测的相关性上,还是在 RMSE 指标上,GlobalCropYield5min 都更接近观测数据。在全球层面,其 R2范围为 0.73 - 0.86,高于 SPAM(0.44 - 0.82)和 GDHY(0.01 - 0.39)。
在空间不确定性评估方面,GlobalCropYield5min 数据集整体不确定性较低。玉米、水稻、小麦和大豆的平均 NRMSE 分别为 25.7%、22.1%、23.7% 和 22.1%,多数网格的 NRMSE 低于 30%。不过,在部分地区,如巴西东北部、阿根廷北部等,不确定性较高。
研究人员开发的 GlobalCropYield5min 数据集,在时空分辨率、精度等方面都取得了重要突破,为研究气候与作物产量的相互作用、农业灾害风险管理等提供了关键数据支持。但该研究也存在一定局限性,例如多源输入数据可能引入偏差,种植和收获日期的动态变化未充分考虑,数据插值和建模过程也可能产生误差。尽管如此,这项研究成果依然为全球农业研究和粮食安全保障奠定了坚实基础,具有重要的科学价值和实践意义。