全基因组预测准确性衰减机制解析:选择与连锁不平衡的作用

【字体: 时间:2025年09月25日 来源:Crop Science 1.9

编辑推荐:

  本刊推荐:本文通过系统模拟分析,揭示了全基因组选择(Genomewide Selection)中预测准确性(rMG)衰减的核心机制。研究表明,选择本身(>50%)和连锁不平衡(LD)衰减(~30%)是导致rMG下降的主因,而遗传漂变、QTL数量等功能标记影响微弱。该发现为育种实践中模型重校准提供了关键理论依据。

  

Abstract

全基因组选择的有效性取决于其预测准确性(rMG)的高低。虽然已知rMG在选择多个周期后会下降,但导致其衰减的因素尚未得到系统分析。本研究旨在评估全基因组选择过程中导致rMG衰减的主要因素。通过模拟玉米(Zea mays L.)双亲杂交的10个周期全基因组轮回选择,并采用不同的遗传模型,在基准模型(包含250个数量性状位点[QTLs],每周期N=200株植物,每周期选择最佳NSel=10株)中,rMG从周期0的0.77下降到周期10的0.16。截断选择与随机选择的结果表明,定向选择本身解释了rMG变异的50%以上。选择周期中连锁不平衡的衰减贡献了 nearly 30%的rMG变异。遗传漂变、QTL数量以及功能标记与随机标记的影响对rMG无显著影响。抑制交叉重组并结合随机选择可使rMG在所有10个周期中保持在0.76–0.77,但如预期那样,未导致选择增益。由于选择和连锁不平衡的衰减是全基因组轮回选择固有的特性,rMG的下降是为获得遗传增益而付出的不可避免的代价。因此,在选择多个周期后需要新的预测模型。

1 INTRODUCTION

预测准确性(rMG),即标记预测值与潜在基因型值之间的相关性,是驱动全基因组选择有效性的关键。理论和实证研究表明,以下四个因素可最大化rMG:(1)训练群体与测试群体之间的高亲缘关系;(2)相邻分子标记间的高连锁不平衡;(3)训练群体的高遗传力;(4)大型训练群体。第五个因素,具有理论基础但实证支持有限,是有效染色体片段数量(Me)。尽管rMG在初始时可能很高,但在全基因组选择的几个周期后,rMG及相应的选择响应会下降。例如,等位基因频率的变化和标记与QTL之间连锁不平衡的丧失已被报道为导致rMG丧失的两个因素。然而,每种因素对rMG丧失的贡献程度以及其他影响因素尚不清楚。如果已知并可控导致其衰减的主要因素,或许可以缓解rMG的丧失。本研究的目标是评估在全基因组选择多个周期后,导致rMG衰减的主要因素。研究的因素包括选择、标记与QTL之间连锁不平衡的丧失、遗传漂变、由于交叉导致的单倍型断裂、以及作为Me代理的QTL数量。模拟的背景是玉米的全基因组轮回选择,其中使用周期0群体训练的预测模型用于后续选择周期。

2 MATERIALS AND METHODS

2.1 Genetic model

每个模拟实验通过特设的Fortran软件进行,涉及玉米双亲杂交的10个周期全基因组轮回选择。模拟的双亲杂交具有600个多态性标记,这些标记在1749 cM的玉米基因组上等距分布,包含10条染色体。控制性状的QTL数量记为NQTL,QTL的位置在基因组上随机均匀分布。QTL的效应遵循几何级数,第一个QTL效应最大,最后一个QTL效应最小。两个亲本互补,一个亲本在奇数QTL处具有有利等位基因,另一个亲本在偶数QTL处具有有利等位基因。模拟了测交效应(无论显性水平如何均为加性),并假设不存在上位性。

2.2 Training population and genomewide marker effects

训练群体包含100个从模拟双亲杂交的F1衍生的随机双单倍体。每个双单倍体的基因型值通过求和其QTL等位基因的已知效应获得。双单倍体间的遗传方差(VDH)通过估计10,000个随机双单倍体(不包括训练群体中的100个)的基因型值获得。训练群体中的遗传力模拟为h2=0.60,这大致对应于玉米产量的平均测交均值h2。通过向每个双单倍体的基因型值添加一个随机非遗传效应来实现目标h2,非遗传效应服从均值为零的正态分布,方差根据VDH值适当缩放。通过岭回归-最佳线性无偏预测(RR-BLUP)从训练群体估计全基因组标记效应。

2.3 Genomewide recurrent selection

周期0包括从双亲杂交开发的N株F2植物。每株周期0植物的表现通过RR-BLUP标记效应预测。根据每周期选择的植物数量应大致等于进行轮回选择的周期数的指南,选择最佳的NSel=10株植物。周期0中的NSel株植物通过链式交配互交,形成N株周期1植物,每个NSel链式交配贡献N/NSel后代给下一个周期。周期0的程序重复进行直到获得周期10。在每个周期中,rMG计算为N株植物的基因型值与预测值(来自RR-BLUP标记效应)之间的相关性。标准化选择响应计算为该周期的基因型均值减去周期0的基因型均值,除以VDH的平方根。每个周期的遗传方差(VG)计算为分离植物基因型值的方差。

2.4 Factors contributing to the decline in prediction accuracy

基准模型具有以下五个因素的水平:(1)每周期截断选择NSel=10个个体;(2)通过每周期从N=200个个体中选择NSel=10个个体进行遗传漂变;(3)不完美的QTL-标记关联,QTL在基因组上随机定位;(4)250个QTLs;(5)常规减数分裂。通过比较基准模型与其他具有不同水平上述五因素的模型的结果,评估这些因素对rMG衰减的影响。首先,通过每周期选择一组随机NSel个体来研究选择的影响。其次,通过将N从200增加到2000并将NSel从10增加到100来研究遗传漂变的影响。与基准模型相比,选择比例因此保持恒定在5%。第三,通过使标记对应于QTL本身来研究标记与QTL之间连锁不平衡衰减的影响,因此每个QTL在整个选择过程中与标记保持完全连锁不平衡。标记数量保持恒定在600个,但最接近QTL的标记被移动到QTL的cM位置。第四,将QTL数量从250减少到30。第五,通过在10条染色体中的每条上无交叉重组来防止亲本单倍型的断裂。五个因素各两个水平导致2?=32因子设计。

2.5 Statistical analysis

每个32个因子组合对应一个模拟实验。每个模拟实验重复1000次,每次重复中QTL的位置不同。通过SAS软件PROC REG实现的多元回归评估上述五个因素对rMG和选择响应的影响。五个主因素、选择周期的线性和二次效应及其双向交互作用被包括为变异来源。

3 RESULTS

在基准模型中,rMG从周期0的0.77下降到周期10的0.16。这种rMG的下降伴随着周期10的选择响应(以遗传标准差为单位)R=3.97。VG从周期0的29.12下降到周期10的3.58。一次改变一个因素导致rMG发生不同程度的变化。rMG从周期0到周期10的变化在随机选择时最小。特别是,随机选择和重组NSel=10株随机植物导致周期10的rMG为0.52(对比基准模型的0.16)。与基准模型(每周期N=200株植物和250个QTLs)相比,具有N=2000株植物(图2中的“较少漂变”)或30个QTLs导致rMG值略低。具有与每个QTL完美对应的标记仅导致rMG的最小增加,最大增加<0.02,并且rMG的差异(对比基准模型)除周期8和9外均不显著(p=0.05)。当交叉缺失时(图2中的“无CO”),rMG以看似线性的方式下降,直到周期9接近零。当每周期种植N=2000株而不是N=200株植物时,R最大(图2中的“较少漂变”)。随机选择时,R与零无显著差异。与基准模型相比,具有与每个QTL完美对应的标记未导致R的任何显著变化。VG的变化与rMG的变化一致(图2)。周期10的VG在随机选择时最大,在较少漂变时次之,在无交叉时最小。与基准模型相比,具有与每个QTL完美对应的标记使周期5-10的VG增加了3%–5%。在所有2?=32个模拟实验中,F检验表明rMG受到选择(即随机与截断选择)、交叉和QTL数量的显著影响(表1)。选择周期也具有显著的线性和二次效应。遗传漂变和具有与每个QTL完美对应的标记对rMG无显著影响。偏R2值对于选择(51.1%)、选择周期的线性效应(27.1%)和交叉(2.1%)最高。F检验表明R受到选择、选择周期(线性和二次)和QTL数量的显著影响(表1)。遗传漂变、交叉和具有与每个QTL完美对应的标记对R无显著影响。偏R2值对于选择(72.1%)和选择周期(线性效应11.2%,二次效应2.1%)最高。同时改变两个或多个因素进一步揭示了rMG在所有10个选择周期中得以维持的条件。随机选择、较少漂变和交叉缺失导致rMG从周期0到周期10恒定在0.77(图3)。随机选择和交叉缺失,但无较少漂变,导致周期0的初始rMG为0.77,并从周期1到周期10恒定在0.76。无较少漂变的随机选择导致周期10的rMG为0.52(图2),而有较少漂变的随机选择导致周期10的rMG为0.54。与基准模型中的rMG相比,具有较少漂变和无交叉的rMG在选择早期周期较高,但在后期周期较低。与基准模型相比,较少漂变和无交叉使周期2-6的R增加了4%–6%(图3)。然而,这种增加在周期10时消散。较少漂变和无交叉导致选择后期周期的VG较低(图3)。从周期1到10的VG在随机选择时最高,尤其是在较少漂变下。

4 DISCUSSION

4.1 Selection and linkage disequilibrium

模拟结果表明,两个因素对全基因组轮回选择多个世代后rMG的下降贡献最大。选择本身,导致等位基因频率变化,解释了32个模拟实验中rMG变异的50%以上(表1)。连锁不平衡的衰减,如后所述由选择周期的线性和二次效应捕获,解释了 nearly 30%的rMG变异。这两个因素是多个选择周期不可避免的后果。因此,rMG的下降是为获得遗传增益而付出的不可避免的代价。基准模型中的rMG从周期0的0.77下降到周期10的0.16(图2)。这种rMG的急剧下降通过随机选择得以缓解。特别是,每周期选择一组随机NSel=10株植物导致在周期10维持了中等高的rMG(0.52)。如预期,随机选择时选择响应R=0。如果截断选择是导致预测准确性下降的唯一因素,那么随机选择时rMG应从周期0到周期10稳定在0.77。在此背景下,导致rMG下降的另外两个因素是(1)由于小群体大小(N)和小NSel导致的遗传漂变,以及(2)连锁不平衡的衰减。遗传漂变,如通过N=200和NSel=10与N=2000和NSel=100的结果所示,对rMG无显著影响(表1)。因此,随机选择时rMG从周期0的0.77下降到周期10的0.52可归因于连锁不平衡的衰减,因为随机个体被选择并互交形成下一个选择周期。连锁不平衡衰减的影响通过选择周期对rMG的高度显著(p<0.01)线性和二次效应反映。在一个连锁不平衡水平(周期0)估计标记效应,并将那些标记效应应用于具有不同连锁不平衡水平(选择后期周期)的后代,将导致rMG的丧失,因为标记效应相对于进行预测的周期变得不那么准确。假设三个标记的顺序是M?–M?–M?,其中M?是QTL本身的标记。如果三个标记处于连锁不平衡,则QTL的效应预计部分由三个标记中的每个捕获。标记效应预计对M?最高,因为它对应于QTL,而M?和M?具有较小但非零的效应。这种由附近处于连锁不平衡的标记捕获QTL效应的现象如图4所示,该图显示了一个具有五个QTL的染色体片段的周期0和周期10的RR-BLUP标记效应,每个QTL与一个标记完美对应。进一步假设群体随机交配许多世代,以至于M?、M?和M?现在处于连锁平衡。在这种情况下,M?预计具有非零效应,因为它与QTL保持完全对应,但M?和M?预计效应为零,因为它们与M?和QTL独立。本研究中的周期10群体并非处于连锁平衡,但周期0的连锁不平衡水平高于周期10。例如,在一个模拟实验的样本重复中(图4,对于N=2000且具有完美QTL-标记对应),相邻标记之间的平均连锁不平衡在周期0为r2=0.89。随机选择(NSel=100)时,相邻标记之间的平均r2在周期10下降到0.49。鉴于估计的标记效应是QTL效应和与标记重组频率的函数,这种周期10连锁不平衡的消散导致标记效应的峰更陡(图4)。相比之下,周期0的标记效应峰较不明显,并且更均匀地分布在相邻标记上。

4.2 Functional markers, crossing over, and number of QTL

已经提出了使用功能标记(对应于QTLs)进行全基因组预测。此处的结果表明,具有完美QTL-标记对应在选择开始时相邻标记之间的高连锁不平衡(r2~0.90)下对rMG无显著影响。这种高水平的连锁不平衡是在具有600个等距多态性标记、分布在1749-cM基因组、10条染色体的模拟双亲杂交中实现的。因此,拥有功能标记将不会缓解rMG的丧失。推而广之,这一结果表明,只要随机相邻标记之间的连锁不平衡很高,完整的DNA序列信息对全基因组预测的价值很小或没有价值。完全抑制交叉重组维持了每条染色体内的高水平连锁不平衡。交叉缺失以及随机选择和较少遗传漂变导致rMG从周期0到周期10恒定在0.77(图3),但如预期,也未导致遗传增益。交叉缺失时的截断选择相当于选择10个不可分割的单位或10个基因座。这一过程导致遗传方差的快速耗尽,这进而导致rMG在周期9时快速下降(图2)。拥有250个QTLs与30个QTLs对rMG的影响不显著。这一结果可能是由于两个亲本自交系杂交时产生的高水平连锁不平衡。具有更少QTLs的后续模拟显示预测准确性下降更大:在周期10,基准模型中250个QTLs的rMG为0.16,30个QTLs为0.12,10个QTLs为0.06。然而,在实践中,对于由少至10个QTLs控制的性状进行全基因组预测似乎不太可能。训练群体大小(NTrain)和h2的乘积是影响rMG的一个关键因素。研究不同因素对预测准确性衰减的影响通过具有相同的起始rMG值(本研究中为0.77)而得到促进。NTrain和h2对后续rMG衰减的影响未作研究,因为(NTrain)(h2)与周期0的起始rMG相混淆。低(NTrain)(h2)会导致低rMG,并且选择周期中rMG下降的空间较小,而高(NTrain)(h2)会导致高rMG,并且后续rMG下降的空间更大。训练群体与测试群体之间的亲缘关系水平已知会影响rMG,并且可以说是在不涉及封闭群体中轮回选择的植物育种应用中驱动rMG的最强因素。亲缘关系水平在本研究中不是一个有意义的因素,因为所有个体都可追溯至相同的双亲杂交,并且在随机选择和有限遗传漂变下,选择周期之间的遗传相似性(每个基因座基础上)预计保持恒定。如第1节所述,本研究的一个前提是,如果已知并可控导致其衰减的主要因素,或许可以缓解rMG的丧失。本研究显示,导致rMG衰减最多的因素是选择本身和随着选择周期中重复减数分裂而导致的连锁不平衡减少。由于这两个因素是全基因组轮回选择固有的,因此在几个周期后需要重新校准预测模型。

AUTHOR CONTRIBUTIONS

Rex Bernardo: Conceptualization; data curation; formal analysis; investigation; methodology; resources; software; visualization; writing—original draft; writing—review and editing.

ACKNOWLEDGMENTS

感谢John N. Cameron就本研究主题进行的早期有益讨论。

CONFLICT OF INTEREST STATEMENT

作者声明不存在利益冲突。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号