编辑推荐:
葡萄物候期(GPHS)预测对精准管理至关重要,但现有图像处理法需专用硬件且受气候影响大,数据缺失问题突出。研究人员提出半监督伪标记方法,结合 8 种机器学习算法分析 7 个数据集,发现该方法显著提升预测精度,且生长度日(GDD)是关键特征,为葡萄种植提供新工具。
葡萄种植面临着气候变化带来的诸多挑战,物候期的准确预测成为关键。葡萄物候期(GPHS)如萌芽、开花、果实发育等阶段的判断,直接影响病虫害防治、修剪和收获等农事操作的时机。然而,传统依赖图像处理的方法需要在葡萄园安装专用硬件,不仅成本高、维护困难,而且难以捕捉温度等气候因素与物候期之间的复杂关联。此外,物候期数据常存在大量缺失值,导致机器学习模型训练受限。为解决这些问题,意大利相关研究机构的研究人员开展了基于气候数据和伪标记方法的葡萄物候期预测研究,成果发表在《Artificial Intelligence in Agriculture》。
研究人员采用半监督学习框架,结合伪标记策略(Pseudo-labeling strategy),利用少量带标记的物候期数据自动为大量未标记气候数据生成伪标签,进而提升模型预测能力。研究选取了 8 种机器学习算法,包括随机森林(RF)、极端梯度提升(XGBoost)等,在 7 个包含不同缺失值比例的数据集上进行验证,这些数据集来自意大利弗留利 - 威尼斯朱利亚地区 6 个葡萄园,涵盖多个葡萄品种,记录了 2009-2022 年的物候期(基于 BBCH 量表)和气候数据(如平均温度、累积降雨量、最高 / 最低温度等),其中生长度日(GDD,累积温度超过 10°C 的阈值)是关键输入特征。
研究结果
4.1 标准监督学习方法的初步结果
在仅使用带标记数据的监督学习中,不同模型表现差异显著。例如,CatBoost 在 “IEP” 数据集上 R2 达 0.96±0.00,但部分数据集如 “CJ” 的 R2 仅 0.15±0.10,表明仅依赖有限标记数据难以应对数据稀疏问题,预测精度受缺失值影响大。
4.2 伪标记方法的效果
引入伪标记后,各模型预测精度显著提升。在 “CJ” 数据集上,XGBoost 的 R2 从 0.09 提升至 0.80,RMSE 从 9.15 降至 2.55;随机森林(RF)在多个数据集上 R2 超过 0.98,RMSE 显著降低。合并数据集(Merge)的平均 RMSE 从 10.01 降至 3.28,表明伪标记有效利用未标记数据,缓解了缺失值的负面影响。
4.3 物候期日(DOY)预测
针对开花、转色等关键物候期的日预测,CatBoost 和 XGBoost 表现优异。例如,CatBoost 在 “IEP” 数据集的开花期预测中 R2 达 0.94±0.01,RMSE 为 6.41±0.30,优于传统基于 GDD 的模型,显示出半监督学习在时间预测上的优势。
4.4 模型解释与特征重要性
通过 SHapley 加性解释(SHAP)分析发现,生长度日(GDD)是影响预测的最重要特征,其 SHAP 值分布范围广,表明累积温度对物候期的关键作用。相比之下,最高 / 最低温度(Tmax/Tmin)和降雨量(CDR)的影响较弱,且不同物候期阶段特征重要性存在差异,如萌芽期(Stage 5)降雨量影响较显著,而果实发育期(Stage 7)温度指标更关键。
结论与讨论
该研究提出的伪标记半监督方法,为葡萄物候期预测提供了一种非侵入性、低成本的解决方案,尤其适用于缺乏高质量标记数据的葡萄园。通过融合气候数据和机器学习,模型能够有效捕捉温度驱动的物候期变化规律,且可解释性分析明确了生长度日(GDD)的核心作用。研究结果表明,随机森林(RF)和极端梯度提升(XGBoost)与伪标记策略结合效果最佳,显著提升了预测精度和模型鲁棒性。尽管研究未纳入土壤湿度等其他环境因素,但为后续整合多源数据奠定了基础。该方法有望推动精准农业实践,帮助葡萄园管理者应对气候变化,优化农事操作 timing,提升葡萄产量与品质。