一种基于数据的作物模型,用于模拟生物质高粱的生长过程

《Frontiers in Plant Science》:A data-driven crop model for biomass sorghum growth process simulation

【字体: 时间:2025年11月14日 来源:Frontiers in Plant Science 4.8

编辑推荐:

  精准农业优化与生物质高粱生长模拟模型研究

  作物生长过程的精确模拟对于预测最终产量和优化资源管理至关重要,特别是在气候多变且资源有限的地区。本文提出了一种新型的数据驱动作物模型,用于模拟生物量高粱在生长过程中的表型变化。该模型结合了详细的生理框架,以追踪表型如何由基因型、环境、管理实践及其相互作用决定,并通过实验数据校准基因型参数。研究结果表明,该模型能够实现对生物量生产的准确预测,并成功区分了环境和管理因素对表型发展的具体影响,即使在数据有限的情况下也能保持较高的预测精度。这一模型提升了生物量高粱生长和产量预测模型的准确性和适用性,为精准农业提供了有价值的参考。

高粱(*Sorghum bicolor* (L.) Moench)是一种适应性强、耐旱、营养价值高的C4植物,是全球粮食安全和生物燃料生产的重要组成部分。在不同高粱品种中,生物量高粱因其能积累超过20吨/公顷的干物质,成为用于饲料和生物能源生产的理想资源。此外,生物能源高粱在减少温室气体排放方面也具有积极意义。

生物量产量受多种因素影响,包括环境条件、管理实践以及由于其多基因特性而存在的基因型变异。与生物量相关的关键性状,如茎粗、植株高度、开花时间以及碳分配等,一直是研究的重点,以解析生物量产量的复杂性。这些研究推动了包括生物能源关联群体、碳分配嵌套关联图谱群体和光周期敏感群体(PSP)在内的遗传资源的开发。这些群体使得研究者能够在与生产系统相关的种质基础上,将生长动态与高通量表型分析和作物建模策略相结合。

精确模拟生物量高粱的生长过程对于预测最终产量和优化资源管理策略具有决定性作用,尤其是在易受气候变化和资源限制影响的地区中尤为重要。可靠的产量预测对于优化农业干预措施和资源分配,以及改善供应链管理具有重要意义。因此,研究者们探索了多种建模方法,从基于过程的作物模拟到数据驱动模型,以应对这一挑战。

基于过程的作物模型广泛用于预测高粱产量,通过明确整合各种生理过程、环境因素和管理实践。SORKAM模型在1989年由Rosenthal等人提出,首次通过模拟每日冠层发育并根据器官需求调整碳分配,取得突破。这一“源-库”基础被引入到决策支持系统(DSSAT)框架中,从而开发出CERES-Sorghum模型。在CERES-Sorghum中,辐射利用效率驱动每日生物量的产生,随后根据生长阶段的特定系数将生物量分配给叶片、茎秆和籽粒,而基因型系数则主要影响作物的物候期。CERES-Sorghum模型的持续改进提升了叶面积和生物量分配的预测能力,使预测精度提高了约20%。此外,一些关于更大根系深度的实验成功识别了甜高粱的管理实践。

农业生产系统模拟器(APSIM)是另一个基于辐射利用效率的模型,其中包含一个优化用于整合植物育种的高粱模块。这一作物生长模型在模拟高粱在不同环境下的遗传多样性方面表现出色。随着高通量表型分析技术的发展,研究者们将无人机和遥感数据与CERES和APSIM模型结合,以纠正状态变量,从而提升模型在不同气候条件下的预测能力。总体而言,基于过程的模型如APSIM和DSSAT通常以精细的时间尺度描述生长过程,但参数校准仍然是一个挑战,因为它需要在多种环境中进行资源密集型的田间实验。

数据驱动模型旨在建立输入数据与输出之间的数学关系,与基于过程的模型不同,后者依赖于已知的生理机制。Jiang等人在2004年开发了一个使用反向传播算法的人工神经网络,以提高作物产量预测的准确性。十年后,一些基于深度神经网络的模型被开发出来,用于整合每日天气数据、分层土壤数据和基因型标记,以解析基因型与环境(G×E)交互对产量的影响。Khaki和Wang在2019年预测了在未见过的地点种植的新杂交玉米品种的产量,通过从历史试验中学习复杂的G×E交互。Shook等人在2021年将基因型信息与天气变量结合,提高了大豆产量预测的准确性。随后,Khaki等人在2020年引入了卷积神经网络和循环神经网络(CNN-RNN)框架,该框架能够从天气和土壤数据中提取时空特征,捕捉潜在的G×E模式。与随机森林和线性模型相比,这种混合CNN-RNN方法表现出色。

统计回归建模是另一种数据驱动方法,能够利用天气和遥感数据。县尺度的天气回归模型在玉米产量预测中取得了显著的准确性。遥感获得的植被指数、天气、土壤和地理位置数据能够解释大豆产量的变化。类似的基于NDVI时间序列的方法也被应用于小麦产量估算。这些研究表明,结构良好的回归模型能够提供稳健且可解释的预测,特别是在结合遥感和气象输入的情况下。与基于过程的模型一样,结合高通量表型分析图像和先进机器学习技术可以提升精准农业的水平。

本文提出了一种新型的数据驱动作物模型,用于模拟生物量高粱的生长过程。该模型基于可用数据构建,具有定制化的模块结构,适应不同数据粒度的建模需求。虽然该模型包含一个谷粒部分,但生物量高粱在温带环境中并不产生谷粒。因此,本文重点在于跟踪生长过程中表型的变化,特别关注由叶片和茎秆的干物质重量决定的总生物量。通过这些考虑,我们构建了一个如图1所示的高粱生长模型。更详细的定义和公式见补充材料1。

为了展示数据驱动模型的有效性,我们使用高粱生长模型对之前描述的数据集进行了训练。计算实验使用Python在俄克拉荷马州立大学的高性能计算中心进行,配置为双Intel“Skylon”处理器(6130,2.1GHz)和96GB RAM。数据驱动的训练方法如下所示。

在处理缺失值后,精修后的数据集包含265个基因型,每个基因型在不同年份的种植密度下有两个重复。这导致每年530组叶片和茎秆干物质重量的测量数据。我们进行了两次训练测试实验(1训练使用21年的数据,测试使用22年的数据;2训练使用22年的数据,测试使用21年的数据)。图4和图5总结了在训练和测试数据集上应用该模型后,同一基因型的两个样本结果。

图4展示了样本1(使用2021年数据进行训练)的结果。该图显示了当使用2021年的数据对基因型ID 156510进行训练,并测试其在2022年的数据时,模型的表现。散点图表示了生长季节中叶片和茎秆的干物质重量,而实线和虚线分别表示预测的茎秆和叶片干物质重量。标签“b1”和“b?”表示田间试验中使用的随机完全区组设计中的重复编号。每组小标题还包括四个观测数据系列中的种植密度。训练结果(上半部分)通常显示出较低的相对均方根误差(RRMSE),而测试结果(下半部分)则更高,这是模型优化训练数据的常见现象。我们还可以观察到,该数据驱动的作物模型能够提供对高粱干物质产量的准确预测,即使在未见过的天气条件下也能实现。

训练RRMSE在不同实验中相似(约20%),而测试RRMSE则显著更高,表明可能存在过拟合。我们还进行了一次额外实验,训练模型使用2021年和2022年的数据,结果见表1的最后一行。为了进一步分析参数行为,补充图S1展示了在三种训练场景下(1 2021数据集,2 2022数据集,3 组合数据集)的56个参数的概率密度曲线。

在本研究中,我们进行了一系列模拟,以确定在不同种植密度下最大化生物量生产的最佳方案。训练数据中的种植密度平均值为14.56株/平方米,标准差为3.83。模拟使用了2021年和2022年的数据校准的基因型参数,并假设2021年的天气条件与土壤湿度水平相同。图6比较了模拟的生物量产量(红色线条)与2021年和2022年的实际数据(蓝色点)。模拟结果显示,大约在25株/平方米的种植密度下,生物量产量达到最高,干物质产量达到3.2 kg/平方米。然而,在大约30株/平方米的种植密度下,生长量突然下降,这可能与训练数据中未表示的环境条件有关。尽管目前的数据有限,无法确认这些输出,但当前的密度测试仍提供了有价值的见解,并突显了该模型在有限训练数据下的潜在应用价值。

我们进行了一系列测试,以评估原始种植和收获日期在2022年天气条件下的适用性,使用2021年和2022年的数据校准的参数。2022年的试验原始种植日期为5月30日,收获日期为10月26日。如图7所示,这些日期并不理想。将种植日期提前1-2天,收获日期提前8-9天可以最大化产量。模拟的峰值茎秆干物质重量比原始值高出约9%,其中大部分增长来自于叶片。这一调整与图3所示的天气模式相一致,其中提前收获有助于避免10月下旬观察到的严重低温胁迫。低温胁迫可能加速叶片衰老,导致显著的干物质损失。

本文提出的基于数据驱动的作物模型在生物量高粱的预测中表现出稳健的性能,平均相对均方根误差(RRMSE)约为20%。模型的训练性能与当代作物生物量预测框架相当,但与农业应用中的产量预测模型相比,仍有不足。此外,测试结果中较高的RRMSE值表明可能存在过拟合,这可能归因于每个基因型的数据可用性有限。然而,模型对120天后叶片干物质重量趋势的准确预测显示了其区分基因型和环境影响的能力。通过分离基因型、环境和管理因素的影响,该模型为描述性分析和农业优化提供了可操作的见解。

在不同种植密度下的产量结果可以为农民提供关键的参考,以最大化利润。我们的研究结果表明,更高的种植密度并不一定意味着更高的生物量产量,这一发现与之前的研究一致。尽管文献表明,高粱的最优生物量生产通常发生在10-20株/平方米,但我们的模拟结果超过了这一范围。这种差异可能归因于模型中的理想化假设,如土壤湿度和养分供应,这些因素可能提高最优种植密度。由于当前数据限制,我们的模型未包含种子或劳动力成本在高粱生长过程中的考虑。然而,我们强调该模型的灵活框架允许在获得更多数据后,无缝整合这些变量,从而实现更具成本效益的分析。

通过调整种植和收获日期的测试结果表明,提前8天收获可以提高产量。不同种植和收获日期的测试结果表明,数据驱动的作物模型在预测分析中的潜在价值,正是由于其能够区分作物产量的基因型和环境影响。区分这些影响是数据驱动作物模型提供有用建议和见解的关键特征,有助于优化作物种植实践。需要注意的是,当前模型在捕捉某些现实世界风险方面能力有限,例如低温土壤导致的出苗不良、延迟种植带来的害虫损害,或晚收带来的霜冻风险。

通过参数化基因型特性,我们的模型避免了传统基于过程方法中校准的挑战。提出的基于数据驱动的作物模型能够从根本上区分基因型和环境对作物产量的影响,从而释放出潜在的预测能力。在获得一组可解释和有见地的结果后,模型的参数可以转移到其他环境中,而其他基于过程的作物模型的基因型参数可能需要在相同品种在不同环境中种植时重新校准。这些优势可以赋予农民利用天气预报优化种植时间的能力,减少对昂贵田间试验进行参数重新校准的依赖。结合天气预报与我们的模型,可以帮助农民选择有利于种子发芽的播种时间,促进均匀的作物出苗和生物量积累,使作物能够充分利用有利的生长季节。如果条件看起来不利,该模型可以建议延迟播种或安排第二次播种以最大化产量。在生长季节的后期,结合实时预报与我们的模型,可以提醒农民注意霜冻风险,从而及时收获,避免因突然降温可能带来的生物量和糖分损失。我们的基于数据驱动的模型具有模块化的灵活性,允许适应不同数据可用性,而无需对缺失输入进行插补或假设。这种适应性简化了对多样化数据集的模型开发。

本文提出的基于数据驱动的模型存在一些局限性。为一种作物设计的模块化结构不易转移到另一种作物上,因为每种作物都有独特的生理特性,需要针对特定物种的生物学和生长过程进行精心重新设计。此外,模型的性能严重依赖于输入数据的质量和数量。此外,一些关键的管理实践,如灌溉、施肥和耕作方法,目前尚未包含在该数据驱动的作物模型中。

应用该数据驱动模型在生物量高粱中的结果可能带来额外的数据整合策略。首先,我们的模型结果可能提供有价值的见解,可以轻松应用于其他高粱品种。其次,无人机和遥感数据可以被整合进模型,以构建更全面的作物生长框架。第三,其他表型数据如叶片温度和根系深度可以被整合到该数据驱动的作物模型中,以实现更可靠的模拟和产量预测结果。此外,数据驱动建模框架可以应用于更多作物种类和更复杂的系统。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号