一种可扩展的机器学习方法,利用大规模的国家数据集来预测小麦的生长阶段
《Field Crops Research》:A scalable machine learning approach for predicting wheat growth stages with a large national dataset
【字体:
大
中
小
】
时间:2025年11月23日
来源:Field Crops Research 6.4
编辑推荐:
小麦生长阶段预测的全国性机器学习模型研究利用澳大利亚国家品种试验(NVT)数据集,通过XGBoost算法整合温度、光照、降水、品种和播种日期等11个特征,开发了可跨季节和地区的空间扩展模型。实验表明,全国范围模型在70:30分割、leave-one-year-out和leave-one-site-out验证中均表现出最高精度(LCCC 0.76-0.80,RMSE 5.9-6.8),且相较于仅温度特征的基准模型,准确率提升13-17%。特征重要性分析显示热积温(GDD)贡献度最高(40%),品种和播种日期次之。研究证实多因素整合的机器学习模型在小麦生长阶段预测中具有实用价值,未来可结合土壤数据和遥感指数优化。
小麦的生长阶段预测对于高效作物管理至关重要,例如确定何时施用化学投入或施肥。近年来,已有研究开发出准确的机器学习(ML)方法来预测小麦及其他作物的生长阶段,但这些研究大多集中在少数关键阶段,并且使用了有限的数据集,这限制了其在不同生长季节和/或地区进行全面验证的可能。因此,这种局限性使得评估其可扩展性变得困难,而可扩展性是实际应用中的关键考虑因素。国家品种试验(NVT)计划为这一研究提供了宝贵的机会,该计划自2005年以来持续记录了澳大利亚谷物带的Zadoks生长阶段观测数据。
本研究的目标是开发一种可扩展的数据驱动方法,利用全国范围内的数据集和机器学习技术来预测小麦的生长阶段。为此,我们设计了三个实验来评估模型的表现:70:30分割、留一季节法(LOYO)和留一地点法(LOSO)。我们还通过比较全国、区域和次区域模型来确定最佳的空间范围,并开发了一个仅基于温度相关特征的基准模型,以评估预测质量。
研究结果表明,所有三种空间范围都表现出色,但全国范围的模型总体表现最佳。该模型在所有三个实验中都显示出高准确性,观测与预测的Zadoks阶段之间高度一致(Lin’s concordance correlation coefficient [LCCC] = 0.76–0.80),误差较小(RMSE = 5.9–6.8阶段),并且在三个实验中准确率达到58–66%(±5 Zadoks阶段)。此外,该模型在所有实验中都优于仅基于温度的基准模型,表明纳入非温度相关特征(如太阳辐射、品种等)能够显著提高生长阶段预测的准确性。
本研究的成果表明,没有其他研究使用如此全面的生长阶段观测数据集,无论是数据量还是时空覆盖范围,来构建作物生长阶段的机器学习模型。利用该数据集,我们成功开发并验证了一个能够良好扩展到未见年份和地点的模型。因此,这项研究突显了机器学习在支持多样化生长季节和地区的作物监测方面的潜力。未来的研究可以探索引入更多的遥感特征,以及增加对未见Zadoks阶段的观测,例如幼苗生长阶段。
本研究使用了超过80,000个来自NVT计划的Zadoks阶段观测数据,覆盖了2005年至2023年间澳大利亚169个地点的数据。与大多数现有研究相比,这些数据涵盖了大部分100个Zadoks阶段,而不是仅限于少数几个关键阶段。这种全面的数据集使我们能够构建一个具有广泛适用性的模型,从而克服了传统方法在数据多样性和空间可扩展性方面的局限。
为了评估模型的可扩展性,我们设计了三种不同的验证方法:70:30数据分割、留一季节法(LOYO)和留一地点法(LOSO)。这些方法分别用于测试模型在不同数据可用情况下的表现。结果显示,全国模型在所有三种验证方法中均表现出色,表明该模型能够有效预测澳大利亚范围内的小麦生长阶段。70:30数据分割实验评估了模型的通用预测能力,而LOYO和LOSO实验则分别测试了模型在新季节和新地点中的泛化能力。
通过特征重要性分析,我们发现GDD(生长积温)是最重要的特征,占总重要性的40%。GDD在小麦和其他作物的生长阶段建模中被广泛使用。其他温度相关特征在重要性排名中分散分布,但它们在不同生长阶段中的作用也非常重要。例如,低于10°C的积温有助于减缓发育进程,而高于32°C的积温则可能对开花阶段产生负面影响。尽管这些特征具有明确的生物学意义,但它们的重要性低于GDD。非温度相关特征,如品种、播种日期和品种成熟期,也在模型中占据重要位置,显示出它们在预测小麦生长阶段中的关键作用。
与仅使用温度相关特征的基准模型相比,包含非温度相关特征的模型在所有评估指标中表现更优。这表明,除了温度因素外,其他如光照、降雨和遗传特征等也对小麦生长阶段有重要影响。这种结果符合作物生长的复杂性,即生长阶段不仅受到温度的影响,还受到多种环境因素的共同作用。
本研究的成果为开发一个用于小麦生长阶段预测的机器学习模型提供了坚实的基础。该模型可以被发展为一个操作性决策支持工具,用于不同利益相关者的应用。例如,农民可以通过输入播种日期和品种信息,利用该模型远程准确预测生长阶段,从而优化管理实践。对于保险机构和政府等需要大规模预测的主体,该模型可以与其他作物类型地图或最佳播种日期模型结合使用,以了解小麦生长阶段的广泛模式及其如何受到不同气候和环境因素的影响。
此外,本研究也指出了未来研究的方向。例如,可以通过增加对未见生长阶段的观测,如幼苗生长阶段,来提高模型的泛化能力。同时,可以引入更多特征,如土壤相关特征和遥感植被指数,以进一步提升模型的准确性。此外,探索混合建模方法,将机器学习与机制模型相结合,可能有助于在预测精度和生物学理解之间取得更好的平衡。
总体而言,本研究展示了利用全国范围内的数据集和机器学习技术预测小麦生长阶段的潜力。这种模型不仅在准确性上表现优异,而且具备良好的可扩展性,使其能够适用于不同的生长季节和地点。这为农业决策支持系统提供了新的思路,并为未来研究提供了丰富的数据和方法基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号