基于过程和数据驱动方法的多模型集成技术提升了小麦籽粒蛋白质含量及产量预测的准确性

《European Journal of Agronomy》:Multi-model ensemble of process-based and data-driven approaches improves modeling of wheat grain protein content and yield

【字体: 时间:2026年02月12日 来源:European Journal of Agronomy 5.5

编辑推荐:

  准确预测冬小麦蛋白质含量(GPC)和产量对保障粮食安全和应对气候变化至关重要。本研究提出多模型集成(MME)框架,整合APSIM-NG过程模型与随机森林、极端梯度提升等机器学习算法,结合AIC加权平均和简单平均方法,利用2008-2020年遥感数据、极端天气指标及作物生长观测数据。验证表明,MME框架对GPC预测的Pearson相关系数达0.89(RMSE=0.32%,R2=0.76),产量RMSE降至317 kg/ha(Pearson相关系数0.94,R2=0.91),显著优于单一模型和最佳机器学习方法。关键因素分析显示光合作用相关及极端天气因素对模型影响最大,贡献8%-12%的重要性权重。通过融合机理模型与数据驱动方法,MME框架有效提升预测精度和模型鲁棒性,为极端气候下冬小麦品质与产量预测提供可靠技术基础。

  
Jinhui Zheng|Le Yu
清华大学全球变化研究所地球系统科学系,教育部地球系统建模重点实验室,北京 100084,中国

摘要

在食品需求增加和全球市场竞争加剧的背景下,准确预测冬小麦的谷物蛋白质含量(GPC)和产量具有重要的战略意义。然而,传统的单一模型方法在复杂的农业生态系统中难以实现高精度模拟。本研究提出了一种新颖的多模型集成(MME)框架,该框架结合了APSIM-NG(农业生产系统模拟器-下一代)基于过程的作物模型、四种机器学习算法(随机森林、极端梯度提升、多元线性回归和长短期记忆)以及两种集成方法(AIC加权模型平均和简单模型平均),以提高华北平原地区GPC和产量的预测精度。MME框架使用了2008年至2020年的遥感数据、极端天气指数和作物生长观测数据来进行全面性能评估。2015–2020年的验证结果表明,MME框架的表现优于基线APSIM-NG模型和最佳性能的机器学习方法,GPC预测的皮尔逊相关系数为0.89(RMSE = 0.32%,R2 = 0.76),产量RMSE降低到316.96公斤/公顷(皮尔逊相关系数 = 0.94,R2 = 0.91)。此外,重要性分析表明,在该框架中,与光合作用相关的因素和极端胁迫因素是最有影响力的预测因子,对模型重要性的贡献率为8–12%,这突显了纳入极端天气因素对模型精度的重要影响。通过有效结合基于过程的建模和数据驱动的方法,MME框架显著提高了预测精度和模型稳健性。这些发现为在多变和极端气候条件下预测冬小麦产量和谷物质量提供了更可靠的技术基础。

引言

食品安全是国家和社会可持续发展的关键要素,已成为世界各国政策议程的核心关注点。准确预测作物质量和产量对于优化农艺管理、制定农业保险政策和制定金融策略至关重要(Basso和Liu,2019;Gyawali等人,2018;Song等人,2023;Yue等人,2018)。小麦(Triticum aestivum L)是全球最重要的主食作物之一,为近40%的世界人口提供必需的热量和蛋白质(Cai等人,2019;Wan等人,2020)。在中国,冬小麦占总粮食产量的85%(Cao等人,2020;Huang等人,2015),因此对食品安全、经济增长和农业生产至关重要(Beyene等人,2022;Erenstein等人,2022;Reynolds等人,2022)。鉴于气候变化的日益影响,获取大规模的冬小麦生产数据对于确保食品安全和可持续发展至关重要(Zheng和Zhang,2025a)。近年来,市场需求逐渐从关注简单供应转向重视质量(Song等人,2023)。虽然以往的研究主要集中在估算小麦产量上(Chaudhari等人,2025;Xiao等人,2024;Yu等人,2025),但食品质量评估的重要性得到了更多的认可(Fu等人,2022;Liu等人,2019;Longmire等人,2023;Longmire等人,2024;Xu等人,2024;Zheng等人,2024)。质量不仅影响消费者需求和市场竞争力,还直接影响生产系统的经济效益(Khanal等人,2020)。
谷物蛋白质含量(GPC)是小麦质量的关键指标,受多种因素影响,包括小麦品种、气候和土壤条件,其中气象因素起着特别重要的作用(Pan等人,2006;Song等人,2019)。许多研究探讨了气候条件对冬小麦GPC的影响,发现温度、辐射和降水量都会影响小麦的蛋白质含量(Song等人,2019;Vollmer和Mu?hoff,2018;Xu等人,2020)。因此,了解小麦GPC的分布模式具有重要的科学意义,并在经济和实际应用中具有重大价值。
目前,许多研究使用单一数学模型和机器学习技术来模拟小麦GPC和产量。传统的作物产量预测方法主要依赖于统计分析和基于过程的作物模型。其中,基于统计分析的经验模型因其在评估气候变量与作物生长关系方面的有效性而被广泛使用(Sharma等人,2022;Sun等人,2024;Tao等人,2012;Xu等人,2024;Zhang等人,2017)。然而,经验模型存在显著局限性,特别是在处理气候变量之间的多重共线性时,这可能会引入对气候与作物关系理解的偏差(Li等人,2020;Wang等人,2022)。因此,在面对日益严重的气候变化时,这些模型往往难以准确捕捉气候与作物之间的复杂相互作用,导致预测精度降低。
由于机器学习模型能够模拟多个影响因素之间的非线性关系,其预测精度通常高于传统的基于回归的方法(Cai等人,2019;Palanivel和Surianarayanan,2019;Sun等人,2022),因此越来越多地被采用。许多研究证明了它们在作物生长和产量估算方面的有效性(Clauss等人,2018;Iniyan等人,2023;Kamilaris和Prenafeta-Boldú,2018;Longmire等人,2024;Longmire等人,2023;Longmire等人,2022;Maimaitijiang等人,2020;Park等人,2018;Ruan等人,2022;Singh等人,2023;Sun等人,2020;Sun等人,2022;Tian等人,2021;Xiao等人,2019)。然而,机器学习模型的解释性有限仍是一个主要缺点,因为它们的黑箱性质限制了对机制的理解和更广泛的应用。
基于过程的作物模型通过明确表示受气候、土壤、基因型和管理因素调控的生理过程来模拟作物生长(Bai等人,2024;Chapagain等人,2022;Chen和Tao,2022;Chenu等人,2017;Dhillon等人,2023;Jin等人,2022;Rajasivaranjan等人,2022)。由于其强大的机制基础,这些模型具有高解释性,能够有效捕捉作物对环境和管理变化的响应(Gilardelli等人,2019;Jin等人,2022;Mokhtari等人,2018;Wu等人,2021b;Xie等人,2017;Zhang等人,2020;Zheng等人,2025a;Zheng和Zhang,2023;Zhuo等人,2022)。然而,许多作物模型对质量形成的表示过于简化或不完整,并且需要大量参数,这些参数在区域尺度上难以准确指定(Brisson等人,2003;Martre等人,2006;Wallach等人,2023;Zheng和Zhang,2025b)。此外,它们在极端天气条件下的稳健性和预测能力仍然有限。
为了解决这些局限性,提出了将作物模型与机器学习相结合的混合方法,利用作物模型的机制优势和机器学习的数据驱动灵活性(Feng等人,2019;Li等人,2021;Li等人,2023a)。这些混合框架在气候极端条件下显示出改进的产量预测精度和降低的不确定性。然而,应用于GPC模拟的研究仍然较少,目前尚未就最适合表示作物生长和质量过程的机器学习方法达成共识。
为了进一步提高模型结果的准确性,提出了多模型集成(MME)方法,在许多情况下其性能优于单一模型(Martre等人,2015;Mustafa等人,2020;Wallach等人,2018)。MME通过整合多个模型的输出来提高预测性能并评估不确定性(Wallach等人,2018)。然而,传统的MME方法(如简单平均和线性回归)通常依赖任意权重来确定模型组合,这可能会降低可靠性(Duan等人,2007;Raftery等人,2005)。赤池信息量准则(AIC)提供了一种统计上稳健的模型加权方法(Akaike,1973;Portet,2020)。AIC量化了模型拟合优度和复杂性之间的权衡,允许表现更好、过拟合风险较低的模型获得更高的权重(Burnham和Anderson,2002;Portet,2020)。最近的研究表明,基于AIC的加权可以有效整合来自不同模型的预测,并提高包括水文学、生态学和气候影响评估在内的各种领域的模拟精度(Gao等人,2021;Li等人,2024;Zhao等人,2022;Zheng和Zhang,2023)。
准确预测小麦GPC和产量仍然是一个主要挑战,尤其是在气候变异性增加和极端天气事件频率上升的情况下。为了解决这一挑战,本研究结合了基于过程的作物模型、机器学习算法和AIC加权模型平均(AIC-WMA)集成框架。通过纳入遥感数据和极端气候指数,更好地捕捉作物生长动态和胁迫响应。具体目标是:(1)校准和验证APSIM-NG(农业生产系统模拟器-下一代)模型以模拟冬小麦GPC和产量;(2)通过将作物模型输出与机器学习方法结合,并借助遥感信息和极端气候指数,提高冬小麦GPC和产量的模拟精度;(3)使用简单模型平均(SMA)和AIC-WMA开发多模型集成框架,进一步提高预测性能并降低模型不确定性。总体而言,本研究旨在建立一个稳健且可解释的框架,以在气候极端条件下改进小麦质量和产量预测,对区域尺度的作物管理和气候适应策略具有重要意义。

研究区域

研究区域

冬小麦在中国30个省和直辖市种植(Hu等人,2024a),其中大部分产量集中在华北平原。本研究重点关注10个关键省份和直辖市,包括北京、天津、安徽、河北、河南、湖北、江苏、陕西、山东和山西,这些地区合计占中国冬小麦总产量的很大一部分(图1)。华北平原气候温和、水资源丰富、土壤肥沃:

APSIM-NG模型的性能

对APSIM-NG模型的参数进行了EFAST敏感性分析(图S1),以评估每个作物模型参数的影响,其名称和定义在表S1中提供。结果表明,根据一阶和全局敏感性系数,影响产量的最重要参数是MaximumPotentialGrainSize、RUE、GrainsPerGramOfStem和BasePhyllochron。它们的一阶敏感性系数分别为0.517、0.485、0.153和0.003:

MME框架的有效性

研究结果表明,单一的APSIM-NG模型在模拟冬小麦GPC和产量方面已经表现出相对较强的性能。然而,当与机器学习和深度学习算法结合使用时,模拟精度进一步提高。其中,深度学习模型LSTM在GPC模拟方面表现突出,而RF在产量预测方面表现最佳。这种差异可能反映了不同模型捕捉数据的能力差异

结论

本研究通过引入集成作物模型、机器学习算法和AIC-WMA方法的MME框架,系统地提高了冬小麦GPC和产量的预测精度。基于APSIM-NG模型的模拟结果表明,该模型能够有效捕捉GPC和产量的时空变异性(图3、图4、图5、图6、图7、图8)。在验证期间(2015–2020年),GPC模拟的皮尔逊相关系数为0.75,R2

CRediT作者贡献声明

Jinhui Zheng:撰写 – 审稿与编辑,撰写 – 原稿,可视化,验证,软件,方法论,概念化。Le Yu:撰写 – 审稿与编辑,撰写 – 原稿,监督,资金获取,数据管理,概念化。

利益冲突声明

作者声明他们没有已知的可能会影响本文工作的竞争性财务利益或个人关系

致谢

本工作得到了国家重点研发计划(项目编号:2024YFF1307600)、国家关键科学技术基础设施项目“地球系统科学数值模拟设施”(EarthLab)以及中国高效利用耕地国家重点实验室(编号:EUAL-2025–03)的支持。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号