编辑推荐:
研究人员针对基因组评估预测育种值通胀问题,开展 GEBV “侵蚀” 研究,发现其与长距离 LD 有关并提出估算方法。
在现代动物育种领域,基因组评估(genomic evaluation)技术就像是一把神奇的 “筛子”,帮助育种者从众多候选个体中精准挑选出具有优良遗传特质的个体,极大地加速了遗传改良进程。这项技术主要基于单核苷酸多态性(Single Nucleotide Polymorphism,SNP)标记来估算育种值,原理是假定 SNP 与因果突变紧密连锁,能有效反映附近突变的效应。
然而,现实却给育种者们泼了一盆冷水。大量验证研究表明,在观察候选个体表型之前进行的基因组评估,常常出现预测育种值通胀的现象,即后期观察到的表型与早期预测值之间的回归系数小于 1。这意味着那些早期被预测为育种值极高的个体,后期实际表现往往不如预期;而原本被认为育种值低的个体,实际表现却可能超出预测。这种偏差严重影响了育种决策的准确性,导致育种资源的浪费,就像在黑暗中摸索前行,找不到正确的方向。
为了揭开这一现象背后的神秘面纱,来自法国巴黎萨克雷大学(Université Paris-Saclay)、法国国家农业食品与环境研究院(INRAE)等机构的研究人员 Didier Boichard、Sébastien Fritz 等人开展了深入研究,相关成果发表在《Genetics Selection Evolution》杂志上。
研究人员采用了多种技术方法来深入探究这一现象。首先,他们通过分解基因组育种值(Genomic Breeding Values,GEBV),计算每个数量性状基因座(Quantitative Trait Locus,QTL)对每个 SNP 效应的贡献,以此来分析长距离连锁不平衡(Linkage Disequilibrium,LD)的影响。具体来说,在不考虑固定效应和多基因效应时,利用 SNP - BLUP 模型(y = M s + e),推导出 QTL j 对 SNP 效应 i 的贡献公式 fij=ciM′pjqj ;在存在残差多基因效应的情况下,同样推导出相应公式 fij=ci?M?′pjqj 。其次,研究人员提出了两种基于 QTL 模拟的方法来估算世代间的 “侵蚀” 系数。方法一是通过模拟参考群体产生新一代,对比两代的 GEBV 来估算;方法二则是根据遗传图谱对 QTL 对 SNP 效应的贡献进行回归分析来预测。此外,研究人员还对六个不同的法国奶牛品种进行研究,测量染色体间的 LD 情况,并在诺曼底(Normande)奶牛群体中进行 QTL 模拟研究。
在研究结果方面,研究人员发现不同法国奶牛品种均存在跨染色体的 LD 现象。在小群体中,这种长距离 LD 更为明显,即使平均 LD 较低,但仍有部分 SNP 与 QTL 存在相关性。在模拟研究中,当模型包含因果变异时,因果变异能捕获大部分遗传变异,远距离 QTL 贡献较小;而在更现实的不包含因果变异的模型中,随着 QTL 数量增加,距离 SNP 较远(d>20cM 或在不同染色体)的 QTL 对部分基因组值的贡献从 7%(100 个 QTL 时)增加到约 25%(500 个 QTL 时),且 SNP 位于不同染色体比位于同一染色体上距离大于 20Mb 时解释的方差更多。同时,研究还发现遗传力的影响较小,但随着遗传力增加,远距离 QTL 有增加贡献的趋势。
进一步研究发现,在模型中加入残差多基因效应后,远距离标记和位于不同染色体上的标记解释的方差比例并未减少,反而有所增加,且 SNP 效应间的相关性更高,这表明多基因效应并不能有效减少预测通胀。
研究人员还通过两种方法对诺曼底奶牛群体的 “侵蚀” 系数进行了估算,结果分别为 0.87 和 0.84,这意味着最佳候选个体在首次基因组评估时可能被高估约 15%。
综上所述,研究表明基因组评估中确实存在 GEBV “侵蚀” 现象,这主要是由长距离 LD 导致的。即使平均 LD 较低,远距离 SNP 仍能捕获部分 QTL 效应。研究提出的两种模拟方法能有效估算 “侵蚀” 系数,这对于准确预测育种值、优化育种决策具有重要意义。同时,研究还发现模型中加入多基因效应并不能改善预测的持续性,而考虑 “侵蚀” 因素能更准确地进行基因组预测。未来,还需要进一步从理论上确定 “侵蚀” 系数,探索参考群体结构对其的影响,以及开发更有效的基因组评估模型,以推动动物育种领域的发展。