《Computers and Electronics in Agriculture》:A plasticity-aware machine learning framework for genomic prediction and resource-efficient wheat breeding under multi-environment conditions
编辑推荐:
本研究提出结合表型可塑性的基因组选择框架(PA-GS),通过父母与种群均值关系构建模型,无需详细环境数据即可实现多环境预测。在小麦RIL群体中,仅用50%基因型数据和三环境数据,PA-GS对株高、千粒重等产量性状的预测准确度达0.54-0.70,有效降低田间试验成本,为智能育种提供高效决策工具。
雷莉|赵聪|李慧慧|田曦|刘金东|王多霞|王凯毅|费帅鹏|万国亮|曾建奇|董亚超|李金鑫|贾一丹|张勇|夏先春|马欣|何勇|肖永贵
中国农业科学院农业环境与可持续发展研究所,北京 100081,中国
摘要
智能和数据驱动的育种需要能够可靠预测基因型在多变环境中的表现同时最小化田间试验成本的模型。表型可塑性为基因型-环境响应提供了一个量化的描述符,但在预测性机器学习系统中却很少被应用。在这里,我们提出了一个基于可塑性的基因组选择(PA-GS)框架,该框架将跨环境预测问题重新定义为了一个增加了可塑性衍生特征的监督机器学习问题。通过使用系到群体回归斜率从多环境表型数据中量化可塑性,并将其与基因组标记结合,以提高模型的泛化能力和决策支持。使用在八个环境中测试的重组自交系小麦群体来评估五个农艺性状(粒产量、千粒重、每穗粒数、穗数和株高),PA-GS展示了在非测试环境中的稳健预测能力,并能够在减少训练样本量的情况下系统地分析准确性-成本之间的权衡。仅在三个环境中评估了50%的基因型,该框架实现了0.70的株高预测准确性、0.54的每穗粒数预测准确性和0.59的千粒重预测准确性,表明在保持预测可靠性的同时大幅减少了田间试验的需求。通过将表型可塑性作为机器学习特征嵌入,PA-GS提供了一个可扩展、可解释且资源高效的数字框架,适用于农业中的智能育种流程和计算决策支持系统,超越了特定作物或物种的实现。
引言
提高粒产量(GY)仍然是小麦育种的关键目标,以满足不断增长的人口需求(Gerard等人,2024年)。然而,快速变化的气候条件增加了生产的不确定性,使得明确表征基因型与环境之间的相互作用成为现代育种计划的核心优先事项(Xiong等人,2024年)。评估环境适应性的常见方法是在不同的地点和年份评估育种材料(Reynolds等人,2017年)。尽管这种方法有效,但多环境试验伴随着巨大的财务和物流成本,限制了其在常规育种流程中的可扩展性。因此,迫切需要开发新的方法来减少田间试验的规模,同时保持选择效率。
智能农业的最新进展越来越强调数据驱动的决策框架,这些框架整合了多源信息以优化资源利用和系统效率。诸如物联网机器学习和数字决策支持系统等技术已被广泛探索,以在多变的环境条件下增强农业管理,特别是在资源高效和可持续生产系统的背景下(Morchid等人,2025年,Morchid等人,2026年)。这些发展凸显了一个更广泛的趋势,即利用高维数据来降低运营成本,同时保持系统性能,为育种和选择中的数据驱动方法提供了概念基础。
在这种数据驱动的背景下,表型可塑性提供了一个表型视角,用于捕捉基因型在不同环境中的适应性,并为精准育种策略提供信息。表型可塑性指的是基因型在环境梯度上表现出的表型变异程度(Kusmec等人,2017年)。这种固有的能力使植物能够适应环境变化,理解其遗传基础为培育具有广泛适应性和韧性的品种提供了途径。最近的研究通常使用系到环境回归得出的反应-规范斜率来量化可塑性,这些斜率表征了基因型对环境变化的响应(Guo等人,2020年,Li等人,2021年,Tibbs-Cortes等人,2024年,Wei等人,2024年)。当与高密度基因图谱结合使用时,这些指标有助于识别与环境响应和适应相关的位点(Wei等人,2024年),表明可塑性可以作为建模基因型-环境相互作用的信息中介性状。
标记辅助选择在具有高遗传力和简单遗传结构的性状上取得了显著的成功(Khalid等人,2019年,Rasheed等人,2016年,Rasheed和Xia,2019年)。但其应用于粒产量这一受多个位点控制的复杂数量性状方面仍然有限(Liu等人,2012年)。尽管粒产量可以分解为组成性状(千粒重、每穗粒数和穗数)以辅助遗传分析(Ouhemi等人,2024年,Yang等人,2018年),但这些组分的大规模和准确表型分析仍然具有挑战性,并限制了选择效率。基因组选择(GS)作为一种有前景的方法,基于有限数量参考系的基因型和表型来预测未测试个体的表现(Desta和Ortiz,2014年,Wang等人,2018年,Wani等人,2021年)。然而,随着全基因组标记变得便宜和常规化,瓶颈已从基因分型转移到了建模:GS必须从多环境表型中学习,而不仅仅依赖于密集的环境分型,特别是在双亲育种背景下。结果表明,将GS与多环境表型数据相结合提高了预测准确性,并增强了它们建模基因型-环境相互作用的能力(Ahmadi和Bartholomé,2022年)。尽管取得了这些进展,这样的模型在育种计划中尚未得到广泛采用,部分原因是它们通常需要密集的环境数据,并且主要在遗传多样性高的自然群体中进行测试。相比之下,仍在育种中广泛使用的双亲群体具有有限的遗传多样性,这需要为这些材料量身定制预测方法。
在这里,我们使用表型可塑性信号在基因组选择框架内量化准确性-成本之间的权衡,并为精准农业决策提供信息。我们假设表型可塑性可以通过亲本均值与群体均值之间的线性关系隐式捕获,并在不显式环境变量的情况下纳入GS中。我们进一步假设这种方法能够在未测试环境中准确预测与产量相关的性状,并且使用部分系和环境进行的小规模田间测试可以保持高预测性能。为了验证这些假设,我们在两个地点(其中一个地点有两种灌溉处理)对来自Zhongmai 578(ZM578)和Jimai 22(JM22)的262个重组自交系(RILs)的双亲群体收集了高质量的表型数据,包括株高、GY和三个产量组分,持续了两年。利用亲本-群体均值关系,我们建立了GS模型,可以在没有显式环境协变量的情况下预测未测试环境中的系,并量化了训练规模效应(系数×环境数),提供了一个将作物表型分析与精准农业决策支持联系起来的系统建模指南。最后,我们的工作旨在提供一种成本效益高的策略,用于理解在不同管理条件下的基因型×环境相互作用(G×E),并促进GS在育种计划中的实际应用,而无需显式环境描述符。
章节摘录
植物材料和田间试验
本研究使用了262个RIL及其亲本系ZM578和JM22。这些系在2021-2022年和2022-2023年的生长季节种植在三个地点:石家庄(37°36′N,114°36′E)、德州(37°27′N,116°17′E)和新乡(35°11′N,113°48′E)。在新乡,实施了两种不同的灌溉处理:全灌溉(XXF)和有限灌溉(XXL)。在有限灌溉处理中,水分限制在
多环境表型变异和性状关系
尽管测试的RIL群体来源于两个遗传相关的品种,但在所有测量性状和环境中也观察到了显著的表型变异(图S2)。相关性分析和遗传力计算进一步证明了遗传和环境因素对性状变异的相对贡献。pH和TKW的表型变异显示出一致的高环境相关性(r = 0.76–0.95,p < 0.001在PH中,r = 0.68–0.89,p
讨论
在这项研究中,我们提出了一个实用且数据高效的框架,将表型可塑性整合到GS中,以改善在不同环境中的产量相关性状的预测。我们的方法基于一个简单而稳健的观察:在多样化的环境中,群体水平的表型可以通过亲本均值很好地近似。这种被忽视的关系为减少育种规模提供了基础,而不会损失预测能力
结论
本研究提出了PA-GS作为一个计算框架,它将跨环境预测问题重新定义为了一个增加了表型可塑性特征的机器学习问题。通过利用亲本和群体均值表型之间的统计上稳健的线性关系,PA-GS能够在不需要显式环境描述符的情况下实现可靠的跨环境预测,解决了许多现有多环境基因组预测模型的一个关键限制。
资助声明
本工作得到了中国科学技术部(2024YFF0808403)、中国国家重点研发计划(2022ZD0115703)和中国国家自然科学基金(32372196)的资助。
CRediT作者贡献声明
雷莉:撰写——原始草稿、方法论、正式分析、数据管理。赵聪:撰写——原始草稿、软件、方法论。李慧慧:撰写——审阅与编辑、调查。田曦:撰写——审阅与编辑、监督。刘金东:资源管理、数据管理。王多霞:正式分析、数据管理。王凯毅:数据管理。费帅鹏:数据管理。万国亮:数据管理。曾建奇:数据管理。董亚超:验证、数据管理。李金鑫:数据利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
致谢
本工作得到了中国科学技术部(2024YFF0808403)、中国国家重点研发计划(2022ZD0115703)和中国国家自然科学基金(32372196)的资助。
作者贡献
L.L.和C.Z.进行了实验;L.L、X.T.、D.W.、K.W.、S.F.、G.W.、J.Z.、Y.D.、Y.J.和J.L.收集了田间数据;Y.X.、Y.Z.、H.L.和Y.H.设计了实验;L.L.、C.Z.和J.L.撰写了草稿;X.M.、Y.X.、H.L.和Y.H.进行了修订