基于机器学习的冬小麦产量预测方法,该方法利用多源数据

《Agricultural Water Management》:Machine learning-based winter wheat yield prediction using multisource data

【字体: 时间:2025年11月08日 来源:Agricultural Water Management 6.5

编辑推荐:

  准确预测作物产量并理解其影响因素对粮食供应管理和决策制定至关重要。本研究整合了卫星植被指数(NDVI、EVI、NDWI)、实际蒸散量(ETa)、气候(温度、降水)及土壤(有机质、黏粒含量等)数据,采用随机森林(RF)、极端梯度提升树(XGBoost)和线性回归(LR)模型预测堪萨斯和俄克拉荷马州冬小麦产量。通过重复弹性网络(RENT)特征选择方法,筛选出40个关键变量,发现ETa在多个生长期被频繁选中,且4-5月与产量相关性最强。结果表明,XGBoost模型在2022(R2=0.71)和2023(R2=0.63)年表现最佳,验证了多源数据融合和特征选择的必要性。

  随着全球粮食安全问题日益突出,精确预测作物产量对于确保粮食供应、优化农业管理以及制定有效的政策具有重要意义。粮食安全问题不仅影响全球人口的生存与发展,还对经济和社会稳定产生深远影响。据联合国统计,全球人口自20世纪中叶以来已增长了三倍,并预计在未来30年内再增加近20亿人。这种快速增长使得农业生产面临更大的压力,特别是在气候变化背景下,极端天气事件频发,如干旱、洪涝和高温等,这些都可能显著降低农业生产力,甚至导致作物绝收。因此,建立一个高效、准确的作物产量预测系统,对于农业生产和粮食安全至关重要。

为了实现这一目标,研究者们广泛采用遥感数据、气象数据以及土壤信息等多种来源的数据,构建预测模型。植被指数(如NDVI、EVI、NDWI)和实际蒸散发(ET?)是近年来被关注较多的变量。这些变量能够反映作物的生长状况和环境条件,从而帮助预测未来产量。此外,土壤特性(如黏土含量、砂含量、有机碳含量和pH值)也被认为是影响作物产量的重要因素。通过整合这些多源、多时序的数据,研究者希望提升预测模型的准确性,并为农业管理提供更科学的依据。

本研究聚焦于美国堪萨斯州和俄克拉荷马州,这两个州是美国重要的冬小麦产区。研究团队通过整合多种数据源,包括遥感数据、气象数据、土壤数据和历史产量数据,构建了一个用于预测县一级冬小麦产量的框架。研究中使用了三种主流的机器学习算法:线性回归(LR)、随机森林(RF)和极端梯度提升(XGBoost),并对它们的预测性能进行了对比。同时,研究还引入了一种称为重复弹性网络(RENT)的特征选择方法,用于筛选对产量影响最大的变量,以提高模型的鲁棒性和可解释性。

研究结果显示,XGBoost在两个测试年份(2022年和2023年)中均表现出最佳的预测性能。在2022年,XGBoost的R2达到了0.71,而RMSE为0.46吨/公顷;在2023年,R2为0.63,RMSE为0.60吨/公顷。这表明XGBoost在处理非线性关系和复杂数据模式方面具有明显优势。相比之下,线性回归模型的预测性能较低,而随机森林模型虽然表现较好,但与XGBoost相比仍有提升空间。此外,研究发现,特征选择显著提高了模型的预测精度,特别是在2022年,当使用选定的特征集时,XGBoost的预测误差大幅减少。

本研究的一个重要发现是,实际蒸散发(ET?)在预测冬小麦产量中发挥了关键作用。ET?在生长季的多个阶段被选为重要变量,尤其是在开花至灌浆阶段,其与产量的正相关关系表明了其在作物生长过程中对水分利用效率的指示作用。此外,研究还指出,4月和5月是决定最终产量最为敏感的月份,这两个时间段与生长季的其他月份相比,显示出更强的与产量的相关性。这表明,决策者和农民应在这些关键月份加强监测,以便及时调整农业管理措施,如灌溉和施肥,从而优化产量。

在特征选择方面,研究采用了一种综合考虑稳定性、模型性能和变量重要性的方法。该方法通过随机采样多个子集,利用弹性网络正则化模型对每个子集进行拟合,获取特征权重。随后,通过三个标准评估这些权重的稳定性,从而确定最终的特征集。这种方法不仅有助于减少数据冗余,还能有效避免过拟合问题。结果表明,最终的特征集包括了多个关键变量,如植被指数、土壤湿度、SPI指数、温度和蒸散发等,这些变量涵盖了生长季的不同阶段,并反映了作物对水分和温度变化的敏感性。

从空间分布来看,预测模型在不同区域的表现存在差异。在2022年和2023年,模型在某些高产地区低估了产量,在低产地区则高估了产量,这种空间分布的误差模式表明,模型可能未能充分捕捉到区域间的差异性。这一发现对于未来的研究具有重要意义,即需要进一步考虑空间异质性,采用空间感知的机器学习模型,以提高预测的准确性。此外,研究还指出,当前的数据处理方式采用了月度分辨率,这在一定程度上限制了对作物生长动态的精确捕捉。因此,未来的研究可以探索更高时间分辨率的数据,如每周或每两周一次的遥感数据,以更好地反映作物在短时间内受到的环境变化。

综上所述,本研究通过整合多源、多时序数据,构建了一个用于预测冬小麦产量的机器学习框架。XGBoost在预测精度上优于其他两种模型,而特征选择方法有效提升了模型的稳定性与可解释性。研究还揭示了ET?和特定月份(如4月和5月)对产量的重要性,为农业管理和政策制定提供了有价值的参考。然而,模型在空间分布上仍存在一定的误差,未来的研究应进一步优化模型,以适应不同区域的复杂性。此外,采用更高时间分辨率的数据可能有助于提高模型对作物生长过程的敏感性,从而提升预测的准确性。本研究的结果为农业预测领域提供了新的视角,也为应对气候变化和粮食安全挑战提供了科学支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号