编辑推荐:
本文通过系统文献综述(SLR),分析了 1859 篇相关文章,最终筛选出 82 篇进行深入研究。研究发现随机森林(RF)、人工神经网络(ANNs)等是常用的机器学习算法,温度、降水等是常用输入参数,R2、RAE 等是常用精度评估指标,同时指出研究存在数据获取、模型复杂度等挑战。
研究背景
农业对全球粮食安全和经济稳定意义重大,玉米和大豆作为世界主要农作物,其产量预测至关重要。机器学习(ML)在作物产量预测方面展现出优势,但目前缺乏针对特定作物选择模型、特征等的系统框架。本研究通过系统文献综述(SLR),梳理 ML 和深度学习(DL)技术在玉米和大豆产量预测中的应用12。
研究方法
- 确定研究问题:提出 5 个研究问题,包括常用的 ML 和 DL 技术、输入参数、精度评估指标、模型性能比较以及研究面临的挑战等。
- 初步检索、确定关键词和检索策略:在多个数据库中进行初步检索,确定最终检索字符串,筛选出相关研究论文。
- 选择和评估原始研究:根据一系列标准,对检索到的论文进行筛选和质量评估,最终确定 82 篇相关研究进行分析。
- 数据提取:将相关信息提取并整理到 Excel 表格中,包括发表年份、作者、研究标题、输入参数、使用的技术等。
- 数据合成:综合分析提取的数据,回答研究问题。同时,研究也存在一定局限性,如排除非英语研究可能导致地理偏见等34。
研究结果
- 常用技术:在玉米和大豆产量预测领域,RF 是最受欢迎的 ML 技术,其次是 ANNs、支持向量机(SVMs)和极端梯度提升(XGBoost)。LSTM 是最常用的 DL 技术,其次是卷积神经网络(CNNs)等。由于研究中常采用多种技术结合的方式,不同技术的使用频率总和超过了论文数量56。
- 输入参数:最常用的输入参数包括温度、降水、历史作物产量、归一化植被指数(NDVI)和土壤 pH 值。从参数类别来看,气候、遥感和土壤参数使用频率较高,而作物、养分和田间管理参数的应用相对较少78。
- 精度评估指标和软件:在评估 ML 和 DL 模型预测准确性的指标中,R2、相对绝对误差(RAE)和均方根误差(RMSE)最为常用。在使用的软件方面,Python 及其相关库(如 Python-Scikit 和 Python-Keras)应用广泛910。
- 模型性能比较:不同研究对 ML 和 DL 技术的性能评估结果存在差异。部分研究表明 ML 技术(如 RF)准确性更高,而另一些研究则显示 DL 技术或混合模型表现更优。混合模型结合了多种技术的优势,在预测准确性和外推能力方面具有一定优势,但也面临计算资源需求大、模型复杂度高等挑战1116。
- 研究挑战:研究面临的主要挑战包括获取高质量和大量数据的困难、模型复杂度高以及在产量预测过程中纳入农场管理因素的问题。此外,数据的区域偏差、纵向数据不足、多数据源整合困难以及数据安全和隐私问题也有待解决1217。
讨论
- SLR 的有效性和可靠性:本研究通过广泛的检索策略和详细的方法步骤,在一定程度上保证了研究结果的有效性和可靠性,但仍可能存在遗漏有价值研究论文的情况1314。
- 研究结果的意义:确定常用的 ML/DL 模型、输入参数和精度评估指标,为未来研究提供参考。气候、遥感和土壤参数的高频率使用,反映了 ML 技术在这些领域的广泛应用,但也凸显了在田间和养分管理方面应用的不足。同时,了解常用的精度评估指标和软件,有助于后续研究选择合适的工具1518。
- 模型性能差异及原因:不同研究中 ML 和 DL 技术性能存在差异,混合模型虽有优势但应用受限。这与模型的特点、数据的质量和数量以及研究问题的复杂性等因素有关16。
- 研究挑战及应对策略:针对数据和模型相关的挑战,可利用物联网、卫星图像等生成合成数据,运用变分自编码器和生成对抗网络等技术解决数据不足问题。同时,需要跨学科研究,将 ML 技术与农业实际相结合,开发用户友好的软件界面系统17。
研究结论
本研究对 82 篇相关论文进行综述,明确了玉米和大豆产量预测研究中常用的 ML/DL 技术、输入参数和精度评估指标,指出了研究面临的挑战。未来需要进一步开展跨学科研究,整合多学科知识,以提高产量预测的准确性和实用性,同时加强在其他重要作物上的类似研究1920。