《Theoretical and Applied Genetics》:Regression approaches for modeling genotype-environment interaction and making predictions into unseen environments
编辑推荐:
本文聚焦植物育种中利用环境信息提升新品种在新环境中表现预测的挑战。研究者系统比较了多种线性混合模型,包括因子回归、环境核方法、降秩回归等,旨在解析这些方法的内在联系并构建统一的预测框架。研究引入了一种新方法以改进预测方差的估计,并利用孟加拉国长期水稻品种试验数据验证了所提框架的有效性。该研究为在目标环境群体中进行更可靠的基因型推荐提供了重要的方法论支持。
在植物育种和品种测试领域,一个核心挑战是如何准确预测作物品种在尚未测试过的新环境中的表现。随着气候变化和农业生产环境的多样化,这一挑战变得尤为紧迫。传统上,育种家依赖于在多环境中进行大规模田间试验来评估品种的稳定性和适应性,但这种方法成本高昂、周期长,且难以覆盖所有潜在的生长环境。因此,利用可获取的环境信息来增强对新环境表现的预测能力,成为了研究的热点。
近年来,随着“环境型学”和“环境组学”等概念的出现,利用环境协变量来解析和预测基因型-环境互作受到了广泛关注。环境协变量,如温度、降水、太阳辐射等气象数据,能够量化生长环境的特征。通过建立基因型表现与环境特征之间的统计模型,理论上可以在不进行实地试验的情况下,对品种在新环境中的表现进行预测。然而,尽管已提出了多种统计模型来实现这一目标,但这些方法往往看似相互独立,缺乏统一的理论框架,并且对于预测结果的不确定性评估尚不完善。
正是在这样的背景下,由Maksym Hrachov、Hans-Peter Piepho、Niaz Md. Farhat Rahman和Waqas Ahmed Malik组成的研究团队在《Theoretical and Applied Genetics》上发表了他们的研究成果。他们的研究旨在梳理和连接一系列用于建模基因型-环境互作和进行新环境预测的回归方法,并特别关注于提升预测方差的估计精度,为育种家提供更可靠的决策依据。
研究人员以经典的因子回归模型为出发点。该模型试图通过建立每个基因型的性状表现与环境协变量之间的线性关系来描述基因型-环境互作。然而,当预测目标是一个全新的、未包含在历史试验数据中的环境时,情况变得复杂。关键在于,必须将环境视为随机效应,并充分考虑环境协变量取值本身的不确定性。例如,预测明年某个地点的品种表现时,我们无法确切知道明年的天气数据,只能基于历史气候资料进行估计,这种不确定性会直接影响预测的可靠性。
研究团队深入探讨了几种重要的回归方法及其内在联系。首先是随机因子回归,该方法允许每个基因型对环境协变量的响应是随机的,并假设其回归系数服从一个非结构化的方差-协方差矩阵,这使得模型具有较好的灵活性。其次是环境核方法,它通过一个由环境协变量计算出的相似性矩阵来刻画基因型-环境互作,虽然模型更简洁,但缺乏对协变量线性变换的不变性。第三种是降秩回归,它可以看作是随机因子回归和核方法之间的一种折衷,通过降低模型秩来平衡模型的复杂度和拟合能力。此外,研究还涉及了扩展的Finlay-Wilkinson回归,该方法通过生成“合成环境协变量”来简化模型并聚焦于基因型-环境互作的主要模式。
该研究的一个突出贡献在于,它清晰地揭示了这些看似不同的方法实际上共享一个统一的模型框架。它们都可以被视为在特定约束或简化下的特例。例如,环境核方法可以被视为随机因子回归模型的一种高度简约形式。这种统一视角有助于研究人员根据具体的数据结构和预测目标选择最合适的模型。
为了评估预测的可靠性,研究者重点讨论了在不同预测场景下如何准确估计预测方差。他们区分了四种典型的预测情形:预测在目标环境群体中的长期平均表现、预测在目标环境群体均值下的一个新年份的表现、预测在一个新地点的长期平均表现,以及预测在一个新地点的新年份的表现。针对每种情形,研究者详细分析了不确定性来源,并提出了相应的方差估计公式。特别地,他们提出了一种新的估计方法,通过校正直接使用参数估计值带来的偏差,从而更准确地评估预测误差。这些方法在孟加拉国水稻研究所提供的长期冬、夏水稻品种试验数据集中得到了验证。
在关键技术方法方面,本研究主要采用了线性混合模型框架。分析过程分为两个阶段:首先通过初步模型估计基因型均值的方差,作为第二阶段分析的权重。核心模型构建上,考虑了基因型和环境作为随机效应,并重点整合了环境协变量。具体技术包括:因子回归、环境核方法、降秩回归、随机系数回归以及基于合成环境协变量的扩展Finlay-Wilkinson回归。用于验证的数据来源于孟加拉国水稻研究所长期收集的多环境试验数据,环境协变量则从AgERA5数据库获取并进行了标准化处理。模型拟合和比较主要依赖于ASReml-R软件,并通过留一环境出和留一年一地出两种交叉验证策略评估模型预测性能。
回归模型
研究以因子回归模型作为理论出发点。该模型描述了基因型表现与环境协变量之间的线性关系。当考虑环境的随机性时,需要在模型中加入随机环境主效应以及残差项,以解释回归线之外的变异。进一步地,将基因型也设为随机效应,并将其回归系数分解为固定效应和随机偏差,从而引出了随机因子回归模型。通过指定随机系数不同的方差-协方差结构,可以衍生出环境核模型和降秩回归模型。环境核模型假设基因型主效应和与环境协变量的互作效应之间相互独立,且各协变量的斜率方差相同,这使得模型非常简洁。降秩回归则通过一个低秩矩阵来近似随机系数完整的方差-协方差结构,在保证模型灵活性的同时减少了参数数量。扩展Finlay-Wilkinson回归采用了两阶段策略:首先从包含固定基因型和环境主效应的模型中提取与基因型-环境互作相关的因子载荷,进而构造出数量更少的合成环境协变量;然后在第二阶段将这些合成协变量纳入模型进行预测。分析表明,这些模型之间存在紧密联系,降秩回归可以重新参数化为使用合成环境协变量的回归模型。
预测方差估计
预测方差主要由两部分构成:一是由于模型参数需要估计所引入的不确定性,二是由于用环境协变量的期望值代替其真实值所产生的不确定性。对于参数估计不确定性,研究推导了乘积项方差的计算公式,并提出了偏差校正方法以获得更准确的估计。对于环境协变量取值不确定性,其贡献取决于预测场景。在预测长期平均值时,此项不确定性为零;而在预测新年份或新地点时,则需要考虑年份间、地点间或地点-年份互作引起的环境协变量变异。研究详细给出了四种预测场景下总预测方差的计算方法。此外,研究还讨论了基因型间差异的预测方差估计,并给出了平均预测方差的表达式。
模型比较与验证
通过对孟加拉国水稻数据的分析,比较了不同模型的拟合优度和预测性能。模型拟合指标显示,降秩回归模型具有较好的拟合效果。交叉验证结果表明,在大多数情况下,引入环境协变量的模型其预测准确性优于不考虑环境协变量的基线模型,但提升幅度有限。在预测新环境表现时,考虑环境协变量均值而非其观测值的策略更为合理。研究还比较了模型基于理论公式计算的预测方差与交叉验证得到的均方预测误差,发现两者在趋势上具有一致性,模型基于的方差估计能够较好地反映预测的不确定性。
研究的结论部分强调,整合环境协变量的回归模型能够有效改善对新环境中基因型表现的预测。在比较的方法中,扩展Finlay-Wilkinson回归和环境核模型在预测准确性和模型简洁性之间取得了较好的平衡。研究所提出的新的预测方差估计方法,有助于在环境协变量信息不完备的情况下,量化品种推荐的可信度。这些线性混合模型为基于环境信息的预测提供了一个强大且可解释的基础框架。研究结果凸显了获取高质量、高分辨率环境数据对于提高选择可靠性的必要性。未来的研究可以探索在这些模型中引入非线性成分或结合基因组数据,以进一步提升预测能力。