ANNs 模型脱颖而出:精准预测印度棉花产量,解锁天气影响密码

【字体: 时间:2025年02月25日 来源:Journal of Cotton Research 3.1

编辑推荐:

  为解决棉花产量预测及探究天气因素影响问题,研究人员开展印度卡纳塔克邦雨养棉区产量预测研究。结果显示 ANNs 模型预测效果佳,还明确了关键天气因素。该研究对优化种植策略、制定政策意义重大,推荐阅读。

  
在农业的大舞台上,棉花可是一位举足轻重的 “明星选手”。它是世界上最重要且广泛种植的经济作物之一,在印度等国家,棉花的种植面积相当可观,尤其是在雨养条件下蓬勃生长。印度在棉花种植面积方面位居世界首位,产量也名列前茅,这小小的棉花,可是纺织、医药、汽车等多个行业不可或缺的 “原材料大咖”。

不过,棉花的生长可离不开天气这位 “伙伴” 的影响。在雨养地区,棉花产量与天气因素紧密相连,就像一对形影不离的好朋友。太阳辐射、温度、土壤水分和养分等因素,都会对棉花的生长和产量产生影响。比如,在其他资源充足的情况下,棉花会对太阳辐射和温度做出积极响应;而土壤温度和湿度的变化,也会影响棉花根系的生长,进而影响地上部分的生物量形成。可以说,天气因素就像一只无形的手,掌控着棉花生长的 “命运”。

然而,随着全球气候的变化,天气变得越来越捉摸不定。这可让棉花种植者们犯了难,他们不知道未来的天气会对棉花产量产生怎样的影响。目前,虽然有不少关于作物产量预测的研究,但大多集中在小麦、水稻等粮食作物上,对于棉花这类重要的纤维作物,相关研究还不够深入。而且,现有的预测模型也存在一些问题。比如,作物模拟模型虽然能详细地了解作物生物学,但常常会因为数据有限而面临挑战;统计模型虽然能提供相对可靠的预测,但容易出现过拟合的情况,尤其是当样本数量少于预测变量数量,或者独立因素之间存在多重共线性的时候。所以,为了更好地帮助棉花种植者应对气候变化带来的挑战,制定合理的种植策略,研究人员急需找到一种更有效的方法来预测棉花产量,并深入了解天气因素对棉花产量的影响。

在这样的背景下,来自相关研究单位的研究人员决心攻克这个难题。他们的研究成果发表在了《Journal of Cotton Research》期刊上,论文题目是《Comparative analysis of statistical and machine learning models for cotton yield forecasting in rainfed conditions of Karnataka, India》。通过一系列研究,他们发现,与统计模型相比,像人工神经网络(ANNs)这样的机器学习模型在预测棉花产量方面表现得更为出色。这一发现意义重大,它为棉花种植者和相关政策制定者提供了宝贵的参考,有助于他们制定更有效的作物管理策略和相关政策,保障棉花的产量和质量。

为了开展这项研究,研究人员使用了多种关键技术方法。首先,他们收集了印度卡纳塔克邦主要棉花产区 1990 - 2021 年的长期数据集,包括棉花的种植面积、产量、生产力以及每日的天气参数(如最高和最低温度、早晚相对湿度、降雨量)。这些数据就像是研究的 “宝藏”,为后续的分析提供了坚实的基础。然后,他们计算了天气指数,将其分为未加权和加权天气变量两类,以此来考虑天气变量的个体和交互影响。接着,研究人员运用了多种模型进行预测,包括逐步多元线性回归(SMLR)、人工神经网络(ANNs)、最小绝对收缩和选择算子(LASSO)、随机森林(RF)以及自回归整合移动平均(ARIMAX)模型。最后,他们使用了多种统计指标,如决定系数()、均方根误差(RMSE)、归一化均方根误差(nRMSE)、建模效率(EF)和平均绝对百分比误差(MAPE),来评估模型的性能。

下面,让我们一起来看看研究人员都取得了哪些成果吧。

棉花产量预测模型的表现


  1. SMLR 模型:研究人员用 SMLR 模型对 2020 年和 2021 年卡纳塔克邦十个地区的棉花产量进行了预测。结果发现,这个模型在不同地区的表现差异很大。在一些地区,它的预测准确性较高,偏差较小;但在另一些地区,偏差就比较大了。比如在达尔瓦德地区,该模型在两个阶段的预测结果都比较好;而在卡拉布尔吉地区,预测结果就不太理想,在 F1 阶段高估了产量,偏差达到了 -77% ,F2 阶段偏差也有 -30% 。
  2. ARIMAX 模型:ARIMAX 模型的预测结果也和实际产量有偏差。在 F1 阶段,RMSE 在不同地区的范围是 87(科帕尔)到 41(奇特拉杜尔加和维贾亚普拉);F2 阶段是 81(科帕尔)到 32(哈韦里)。除了科帕尔在 F1 阶段和贝拉尔加维在 F2 阶段,其他地区的 MAPE 值大多小于 25% ,这说明模型虽然准确性不算高,但还在可接受的范围内。而且,该模型在不同地区也存在高估或低估产量的情况,像达尔瓦德和奇特拉杜尔加地区的预测结果相对较好,而卡拉布尔吉和科帕尔地区偏差就比较大。
  3. LASSO 模型:LASSO 模型在不同地区和年份的表现也不太稳定。在 F1 阶段,RMSE 范围是 33(达尔瓦德)到 91(科帕尔);F2 阶段是 31(哈韦里)到 85(科帕尔)。大部分地区在这两个阶段的 MAPE 值小于 25% ,但也有部分地区偏差较大。比如在 2020 年 F1 阶段,多个地区的棉花产量被高估;2021 年 F2 阶段,又有一些地区出现低估的情况,这表明该模型可能还需要进一步优化。
  4. RF 模型:RF 模型在 2020 年和 2021 年 F1 和 F2 阶段的预测结果同样有好有坏。F1 阶段,RMSE 范围是 29(赖丘尔)到 105(科帕尔),MAPE 范围是 13(赖丘尔)到 39(科帕尔);F2 阶段,RMSE 范围是 28(迈索尔)到 89(卡拉布尔吉),MAPE 范围是 10(迈索尔)到 30(贝拉尔加维)。像达尔瓦德和维贾亚普拉地区的预测偏差较小,而哈韦里、卡拉布尔吉和科帕尔地区偏差较大,并且在不同地区有高估或低估产量的情况。
  5. ANN 模型:ANN 模型在预测棉花产量方面表现出色。在 2020 年和 2021 年的验证中,大部分地区预测产量与实际产量的误差都在可接受的 ±10% 范围内,只有卡拉布尔吉在 F1 阶段的误差较大。从模型性能评估指标来看,RMSE、nRMSE 的值较小,EF 值较高,在大部分地区都达到了优秀或良好的水平。比如在哈韦里地区,F1 阶段的 RMSE 为 1.30,nRMSE 为 0.4,EF 为 1.00;F2 阶段 RMSE 为 1.8,nRMSE 为 0.6,EF 为 1.00 ,这表明 ANN 模型在预测棉花产量上具有较高的准确性。

模型间的比较


研究人员对这些模型的预测能力进行了比较。在 2023 年 F1 和 F2 阶段,用不同模型对十个地区的棉花产量进行预测后发现,不同模型预测的产量范围有所不同。而且,预测的 2023 年平均产量都高于 1990 - 2021 年的平均产量 289 kg?hm?2。整体来看,ANN 模型在预测棉花产量方面表现更为突出。

影响棉花产量的主要天气因素


由于 ANN 模型表现优异,研究人员用它来评估影响棉花产量的重要天气变量。结果发现,不同地区影响棉花产量的重要天气因素存在差异。在营养生长阶段(F1),达尔瓦德和维贾亚普拉地区,最高温度()和早晨相对湿度( II)的相互作用对产量影响较大;在卡拉布尔吉、贝拉尔加维和迈索尔地区,最低温度()和降雨量()的相互作用影响显著。在中期阶段(F2),迈索尔和赖丘尔地区,最高温度()和降雨量()的未加权相互作用影响产量;达尔瓦德和巴拉里地区,最低温度()和降雨量()的加权相互作用起主要作用。这些差异表明,不同地区和生长阶段,天气因素对棉花产量的影响各不相同。

从研究结论和讨论部分来看,这项研究意义非凡。研究人员通过比较不同的统计和机器学习技术,发现 ANN 模型在预测棉花产量方面具有明显优势。这一发现为棉花种植者带来了好消息,他们可以借助 ANN 模型更准确地预测棉花产量,提前做好种植规划,减少天气变化带来的风险。对于政策制定者来说,也能根据这些研究结果,制定更科学合理的农业政策,保障棉花产业的稳定发展。不过,机器学习模型也并非完美无缺,比如 ANN 模型虽然预测能力强,但它像一个神秘的 “黑匣子”,缺乏可解释性,无法清晰地展示内部关系。未来的研究可以进一步探索如何改进这些模型,比如纳入更多土壤和作物生长参数等特征,让模型更加完善。总之,这项研究为棉花产量预测和农业发展提供了重要的参考,就像为在农业海洋中航行的船只指明了方向,让人们在应对气候变化和保障棉花产量的道路上迈出了坚实的一步。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号