
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:基因组选择推动水产育种发展:模型、工具与挑战
【字体: 大 中 小 】 时间:2025年09月21日 来源:Water Biology and Security 4.4
编辑推荐:
本综述系统探讨了基因组选择(GS)在水产育种中的应用进展,重点介绍了BLUP类模型(如GBLUP、ssGBLUP)、贝叶斯模型(如BayesA、BayesB)和机器学习模型(如SVR、RF)等统计方法,通过比较不同水产物种(大西洋鲑、虹鳟等)的基因组预测精度(0.1-0.89),为模型选择提供实践指导,并深入分析了多组学整合、基因与环境互作(G×E)等前沿挑战与发展方向。
水产养殖已成为全球动物蛋白生产最高效的方式,供应全球近一半的鱼类和贝类,贡献约三分之一的高质量动物蛋白消费。2020年全球渔业和水产养殖总量达2.14亿吨,水产养殖产量比1990年代平均水平增长60%,价值4240亿美元。这一增长主要得益于育种技术的进步,育种创新对养殖物种遗传质量的直接影响支撑了行业的效率和增长。
从传统的表型选择到利用最佳线性无偏预测(BLUP)估计育种值(EBV),再到标记辅助选择(MAS),水产育种遗传进展稳步推进。大多数性状是多基因控制的,由许多具有微小效应的基因控制。虽然少数性状可能由单个主效基因控制(例如水产养殖中已鉴定出几个与抗病性相关的主要数量性状位点QTL),但这仅适用于有限数量的性状。此外,一些经济性状表现出低遗传力并涉及复杂的遗传机制,这限制了使用有限数量分子标记进行MAS遗传改良的效果。
高通量测序和芯片技术的进步导致了新一代育种技术在水产遗传改良中的逐步推广和应用,即基因组选择(GS)。GS由Meuwissen等人于2001年首次提出,利用遗传信息预测育种值,从而能够更准确地选择个体,特别是对于低遗传力性状。这标志着由高通量基因分型技术指导的育种实践的重大进步。
传统选择育种依赖于记录的性状值和通过系谱分析建立的遗传关系。特定性状的EBV通常使用BLUP模型估计,然后基于这些值的加权整体选择指数用于指导根据这些指数排名选择个体。随着遗传标记技术(如微卫星和单核苷酸多态性SNP)的进步,与目标性状密切相关的标记用于MAS以选择优良个体,即使这些标记尚未经过功能验证。这种方法允许在DNA可用时进行早期选择,从而加速遗传进展。然而,它并不总是导致世代间隔减少,特别是如果动物在表型测定可能之后达到性成熟。
鉴于水生动物大多数关键经济性状是由小效应的多基因控制的,识别具有大功能效应的突变特别具有挑战性。因此,这些标记捕获的遗传变异通常是有限的,这限制了MAS的有效性。在BLUP中,尽管基于系谱的遗传关系表明全同胞对于预测个体具有相同的育种值,但个体间性状的差异揭示了从系谱推断的遗传关系的局限性。
GS涉及从遍布整个基因组的高密度标记推导基因组估计育种值(GEBV),然后根据这些GEBV选择个体。本质上,它可以被视为全基因组范围的MAS。它使用整个基因组的遗传标记估计个体染色体片段或单个标记的效应,随后将这些效应聚合以估计GEBV。基本假设是,在遍布整个基因组的高密度SNP标记中,至少有一个SNP与影响目标性状的QTL处于连锁不平衡(LD),从而能够使用SNP追踪每个QTL。
与BLUP方法相比,GS有效减轻了孟德尔抽样误差在计算个体间遗传关系中的影响。与MAS相比,GS包含遍布整个基因组的标记,为表型变异提供了更全面的解释。由于芯片和测序技术的快速进步,高通量SNP标记检测成本已降低,使得GS在育种实践中的应用成为可能。
统计模型是GS的核心,极大地影响预测精度和计算效率。基于不同理论,GS统计模型可分为三类:基于BLUP的模型、基于贝叶斯的模型和基于机器学习的模型。
基于BLUP的模型由于其在准确性和效率之间的平衡而成为基因组选择的基础。它们分为三组:使用单个基因组关系矩阵的经典模型,如GBLUP和RRBLUP;整合来自不同数据源的一个随机遗传效应的修改模型(例如ssGBLUP、WGBLUP);以及具有多个随机效应的模型,例如捕获不同基因组特征的GFBLUP。最近的发展整合了基因型与环境互作和多组学层,扩展了BLUP的功能,同时保留了其混合模型基础。
统计模型可以表示为:
y = Xb + Za + e
其中y是表型值向量,b是固定效应向量,X是将b与y关联的关联矩阵,a是加性遗传效应向量(服从正态分布N(0, Gσa2)),其中σa2是加性遗传方差),G是基因组关系矩阵,Z是将a与y关联的关联矩阵,e是随机误差向量,服从正态分布N(0, Iσe2),其中I是单位矩阵,σe2是残差方差。
构建G的方法有很多。VanRaden于2008年提出的方法目前应用最广泛,其公式为:
G = MMT / ∑2pjqj
其中pj是位点j的等位基因频率,qj = (1 - pj),M是中心化标记矩阵,其中基因型减去2pj。
方差分量通过限制性最大似然(REML)等方法估计,GEBV通过以下公式计算:
a = (Z'Z + G-1σe2/σa2)-1Z'(y - Xb)
BLUP基于模型的原理类似于传统BLUP模型,但它使用基于遗传标记的G矩阵而不是基于系谱的A矩阵。该方法称为GBLUP,以区别于传统BLUP方法。GBLUP的实施需要构建G矩阵,这使得计算相对较快。G矩阵比A矩阵更好地捕捉个体遗传差异并减轻孟德尔抽样偏差的影响,与传统BLUP方法相比具有更高的预测准确性。
GBLUP和RRBLUP被证明是等效的。由于其计算效率,GBLUP在大约25个水产养殖物种中得到广泛应用,包括大西洋鲑、虹鳟和大黄鱼。然而,在GBLUP方法中,所有标记对基因组关系矩阵(G矩阵)的构建贡献相等,该矩阵在不同性状中使用。实际上,不同性状受不同的遗传机制和复杂性影响,表明通过考虑这些性状特异性差异来增强GBLUP方法存在巨大潜力。
基于BLUP的模型在不同性状中使用一致的遗传关系矩阵,在其构建过程中为所有标记分配相等的权重。认识到这些局限性,当前的修改方法主要分为两类:(1) 随机加性遗传效应。GBLUP模型保留随机加性遗传效应,但在构建G矩阵时为不同标记分配权重,或者可以使用替代的亲缘关系矩阵代替G矩阵。(2) 多个随机加性遗传效应。根据不同的染色体区域及其与性状的关联强度对标记进行分类,将两个或多个随机加性遗传效应纳入模型。
在随机加性遗传效应中,GBLUP方法仅利用基因组信息构建亲缘关系矩阵,这意味着所有预测个体都拥有基因组数据,而未进行基因分型的个体无法被预测。为解决这一局限性,Christensen和Lund(2010)以及Aguilar等人(2011)开发了单步GBLUP(ssGBLUP)。该方法通过将基于系谱的关系整合到统一矩阵H中,整合基因分型和未基因分型个体的表型信息,其逆用于混合模型方程。
ssGBLUP能够估计基因分型和未基因分型个体的育种值。与GBLUP相比,它通过整合未基因分型个体的额外表型信息,为基因分型个体提供更高的预测准确性。此外,对于未基因分型个体,使用从基因分型个体推导的基因组关系矩阵调整遗传关系,理论上提高了传统BLUP的预测准确性。ssGBLUP方法已在10多个水产养殖育种计划中广泛应用,如虹鳟、大黄鱼、尼罗罗非鱼、凡纳滨对虾、牙鲆、欧洲海鲈、斑点叉尾鮰、银鲑、香蕉虾、俄罗斯鲟和太平洋鲍鱼。结果一致表明,与BLUP或GBLUP相比,ssGBLUP可以实现更高的预测准确性。
加权GBLUP(WGBLUP)遵循与GBLUP相同的结构,但使用加权基因组关系矩阵。通过迭代调整标记权重,WGBLUP改进基因组预测,使其成为GS的更有效方法。许多研究也报道了WGBLUP相对于未加权GBLUP的优势。我们之前的研究表明,WGBLUP方法在四种水产养殖物种中实现了比GBLUP更高的基因组预测准确性。
基因组特征BLUP(GFBLUP)模型是一个多重随机加性遗传效应模型,其中经过验证功能的突变区域被视为不同的随机效应,而其余标记构成第二个随机效应,从而增强了对QTL区域内遗传变异的捕获。然而,我们之前的发现表明,当在α=0.05显著性水平上纳入GWAS先验信息时,GFBLUP模型产生的预测准确性低于GBLUP,并且在大西洋鲑、鲤鱼、海鲷和虹鳟群体中偏差更大。这些发现凸显了GFBLUP性能对GWAS衍生的先验信息的准确性和可靠性的强烈依赖性。
由于经典GS模型主要关注遗传主效应,它们常常忽略了由G×E互作产生的复杂性以及嵌入在多组学数据中的丰富信息。最近的进展旨在整合这些方面以提高预测准确性和生物学可解释性。
G×E互作反映了基因型在不同环境下的差异性能,这对于水产养殖中的稳健基因组预测至关重要。已经开发了两种主要方法:多性状模型和反应规范模型。多性状模型假设一个性状在不同环境中的表型表达是不同的性状,从而借力于遗传相关性。反应规范模型将GEBV建模为环境依赖性的,捕捉基因型可塑性和适应性。常见的方法是拟合随机回归模型,其中环境梯度(例如温度、盐度、养殖条件)用作协变量。
为了弥合基因型和表型之间的差距,多组学启用的GS模型整合了来自转录组学、代谢组学或表观基因组学的数据。这些数据层有助于解释功能变异,并且当组学数据与性状相关时可以提高预测性能。
GTBLUP(基因组-转录组BLUP)通过包含转录组相似性扩展了标准GBLUP。GOBLUP(基因组组学BLUP)通过包含来自不同组学数据集的多重协方差结构扩展了标准GBLUP。这种分层模型共同捕捉通过中间组学特征介导的表型遗传结构,从而提高了基因组预测准确性。
贝叶斯模型通过利用先验分布和抽样策略来估计标记效应。它们可以大致分为经典模型,如BayesA和BayesB,它们假设不同的标记效应分布,以及修改的模型,如BayesR,它使用混合先验来更好地捕捉遗传结构的复杂性。
统计模型可以表示为:
y = Xb + ∑i=1m Zigi + e
其中y、X、b和e与基于BLUP的模型一致;Zi是第i个SNP基因型向量(例如0, 1, 2);gi是第i个SNP的效应值。SNP效应值可以推导为g = (Z'Z + Iσe2/σgi2)-1Z'(y - Xb)。然而,在求解模型时,要估计的模型变量数量远远超过样本数量,导致多重共线性和过度参数化,使得Z'Z无法求逆。因此,使用参数对角线权重法解决。
贝叶斯模型的重点和难点在于对超参数先验分布做出合理假设,特别是gi及其方差的分布。Meuwissen等人(2001)提出了两个贝叶斯框架。第一个假设所有标记都对性状有贡献,其中gi ~ N(0, σg2),并且SNP效应的方差不等,服从逆卡方分布χ-2(ν, S),其中自由度ν和尺度参数S与性状的遗传结构直接相关。此外,效应值gi的条件后验分布服从t分布,表明大多数标记具有小效应,只有少数标记具有大效应。这种基于贝叶斯理论的方法称为BayesA。
然而,一个不同的假设表明大多数标记(π,百分比)没有效应,而只有少数标记(1-π)有效应。这些标记的条件后验分布与BayesA遵循相同的t分布。这个假设导致了几种贝叶斯方法的发展,例如BayesB、C、Cπ、Dπ和LASSO。这些模型的预测准确性在很大程度上取决于它们的假设是否适用于预测性状的遗传结构。
贝叶斯模型在更复杂的假设下运行,通常通过估计更多参数来提高预测准确性。然而,这是以增加计算需求为代价的。这些模型通常假设变量的特定分布,需要建立先验分布并使用贝叶斯定理计算后验分布。这个过程通常采用马尔可夫链蒙特卡罗(MCMC)方法,例如Gibbs抽样或Metropolis-Hastings算法,可能需要数万次迭代才能达到收敛和稳定状态。每次迭代都涉及重新评估所有标记效应值。这个连续的、非并行的过程需要大量的计算时间。
基于贝叶斯的模型通常应用于大约20个水产养殖物种。总体而言,基于贝叶斯的模型的预测准确性与GBLUP模型相当或更高。例如,Ajasa等人(2024)报道,对于大西洋鲑的变形鳃病抗性,GBLUP和贝叶斯模型(BayesB和BayesR)之间的基因组预测准确性没有差异。Bai等人(2022)报道,对于大黄鱼的内脏白点病抗性,几种不同贝叶斯模型(尤其是BayesC和BayesRR)估计的预测准确性高于GBLUP。类似地,Joshi等人(2021b)报道,对于尼罗罗非鱼的无乳链球菌感染存活率,贝叶斯模型(BayesB、BayesC、BayesR、BayesS)的预测准确性高于GBLUP模型。
贝叶斯模型假设遗传变异由一小部分SNP解释,当性状的结构(部分或全部)由许多主要QTL控制时,这可能是有利的。然而,如果性状的结构是多基因的,GBLUP模型可能同样准确,甚至在某些情况下优于贝叶斯模型。
Erbe等人(2012)提出了一个关于遗传标记影响的更精细的假设。他们根据效应大小将标记分为四组:大、中、小和无效应。每个类别中的标记效应假设遵循具有预定方差的正态分布,这些方差按固定比率不同。标记效应的分布如下:
gi ~ π1N(0, σg2) + π2N(0, 10-4σg2) + π3N(0, 10-3σg2) + π4N(0, 10-2σg2)
其中π1 + π2 + π3 + π4 = 1
这个假设被称为BayesR。通过根据效应将标记分为不同的组,BayesR可以应用于具有不同遗传结构的性状,在 varying genetic architectures 的性状中表现出显著的灵活性。一些研究报道了BayesR在基因组预测中的应用。例如,Ajasa等人(2024)发现对于大西洋鲑的变形鳃病抗性,BayesR的预测准确性与BayesB没有显著差异。Joshi等人(2021b)报道,在贝叶斯模型中,对于尼罗罗非鱼的无乳链球菌感染存活率,在几乎所有SNP密度子集中,BayesR的GEBV膨胀最小。
机器学习是人工智能的一个子集,包含各种算法,旨在将实际问题转化为数学问题,然后机器解决这些问题以解决现实世界的问题。最初被定义为计算机可以在没有明确编程的情况下获得学习能力的领域,机器学习围绕三个基本元素:数据、算法和模型。通过选择适当的算法,机器学习自主地从现有数据中提取规则,并利用生成的模型处理新数据。
机器学习方法通常是非参数的,不需要预定义的模型假设。在GS中,机器学习算法不断从输入数据中学习以积累经验,从而构建表型和基因型数据之间的特定关系。根据训练期间受到的监督量和类型,机器学习可分为监督学习、无监督学习、半监督学习和强化学习。在GS领域,监督学习是应用最广泛的技术。相比之下,无监督、半监督和强化学习方法在GS中应用较少,但它们在表型测定中具有明显优势,可以为GS提供准确的表型记录。
监督学习旨在基于一组解释变量(x)估计或预测响应变量(y),通过函数f(x, β),其中β是模型参数向量。由于计算机的基本操作是在给定输入的情况下产生输出,因此监督学习是机器学习的一个关键分支,并且是应用最广泛的部分。其应用可分为分类、回归和结构化学习问题。值得注意的是,GS中使用的所有机器学习方法都是监督学习,例如支持向量回归(SVR)、随机森林(RF)、极限梯度提升(XGB)和弹性网络(EN)。
基于监督学习的机器学习模型已在各种水产养殖物种的基因组预测中得到广泛应用,包括凡纳滨对虾、栉孔扇贝、黄鳍鲷和香蕉虾。它们已在基因组预测中展现出优势。例如,Luo等人(2024)报道,对于凡纳滨对虾的生长性状,NeuralNet方法显示出比GBLUP和BayesB更高的基因组预测准确性,并且Nguyen和Vu(2022)报道,对于黄尾鰤的皮肤吸虫病抗性,机器学习方法获得了比线性模型和贝叶斯方法更高的预测准确性。
在基因组预测中应用机器学习方法的一个常见陷阱是超参数选择。调整超参数对于在模拟和真实大西洋鲑数据中利用机器学习的优势是必要的。因此,超参数调优对于优化机器学习在水产养殖物种基因组预测中的性能至关重要。
BLUPf90、DMU和ASReml是三个广泛用于遗传评估和GS的软件包。基于Fortran编写的BLUPf90程序系列促进了动物育种中的混合模型计算,支持各种模型,包括动物模型、母体模型和具有多个性状的随机回归模型,完全支持ssGBLUP。BLUPf90系列包括几个用于使用REML和Gibbs抽样以及各种模型估计方差分量的程序。DMU是为分析多元混合模型而开发的统计软件包。该软件包使用Fortran实现强大的基于似然的工具,用于估计方差分量、固定效应(BLUE)和预测随机效应(BLUP),以及关于离散和位置参数的贝叶斯推理工具。ASReml是一个用于使用限制性最大似然拟合线性混合模型的统计软件包,由于使用平均信息算法和稀疏矩阵方法,对于拟合非常大和复杂的数据集非常高效。GBLUP可以与这三个软件包中的任何一个一起使用。
GS3软件可用于GBLUP、BayesCπ和BayesianLasso模型。GS3能够拟合解释加性、显性和无穷小效应以及永久环境效应的模型。不同GS模型的常用软件如表2所示。在水产养殖中,Garcia等人(2023)使用BLUPf90在虹鳟中进行了BLUP和ssGBLUP;Song等人(2022a)使用DMU在俄罗斯鲟中进行了BLUP和ssGBLUP;Tsai等人(2016)使用ASReml在大西洋鲑中进行了BLUP和GBLUP。根据我们的经验,ASReml比DMU和BLUPf90更简单易用。然而,ASReml一次只能运行一个任务,需要完成当前任务才能开始下一个任务,当多个任务排队时会影响计算效率。DMU可以处理具有多个随机效应的模型,例如GFBLUP。BLUPf90是一个强大的工具,支持数据质量控制、单步GWAS(ssGWAS)和ssGBLUP整合验证和年轻(APY)算法,以有效近似大型群体的基因组关系矩阵的逆,以及在ssGBLUP中处理未知亲本组(UPG)。
R语言语法简单,开源包丰富,可以从CRAN网站免费获取。BGLR、RRBLUP和sommer是基于R语言的遗传评估软件包。BGLR(贝叶斯广义线性回归)整合了各种育种值估计方法,包括GBLUP、BayesA/B/C/Cπ、Lasso、Ridge Regression和再生核希尔伯特空间(RKHS)。RRBLUP是一个用于快速实现RRBLUP和GBLUP的R包。相反,sommer包擅长处理多个方差分量和指定的协方差结构。它可以计算加性、显性和上位矩阵,同时还能熟练处理缺失数据,提供卓越的速度和灵活性。大量研究使用BGLR包在GS中执行贝叶斯方法,例如牙鲆、石斑鱼、欧洲海鲈和大西洋鲑。由于R语言的固有局限性,这些R包在处理大型数据集时计算效率低下,特别是全基因组测序数据。
对于基于机器学习的模型的软件,LearnMET将基因组信息与环境因素相结合,以促进使用机器学习技术进行GS。该软件提供了梯度提升决策树、随机森林和多层感知器等方法实现。EasyPheno基于PyTorch框架,支持各种方法,包括RRBLUP和BayesA/B/C,以及机器学习方法,如支持向量机、随机森林和XGBoost,以及深度学习方法,如多层感知器、卷积神经网络和局部连接神经网络。BWGS软件包提供了15种不同的选择方法,包括参数和非参数方法(RKHS、RF、SVM、贝叶斯正则化神经网络BRNN)。G2Pdeep是一个开放访问的服务平台,采用CNN模型进行基因组预测。它通过交互式Web界面开发深度学习模型,并在后端使用高性能计算资源训练它们。该平台以可视化格式呈现结果以增强解释。此外,还有许多其他可用于机器学习的软件,详见表2。在水产养殖中,Palaiokostas(2021)使用Python库scikit-learn v0.22来拟合水产养殖物种的机器学习模型。总之,用于基于机器学习的基因组选择的软件包,包括LearnMET、EasyPheno、BWGS、G2Pdeep和scikit-learn,都需要大量数据、显著的计算资源和大量的用户专业知识。
模型假设的差异导致预测准确性的变化。为了定量比较不同模型的相对性能并展示通过优化模型假设实现的预测准确性改进,本研究使用来自四种水产养殖物种的数据比较了常用方法:大西洋鲑、鲤鱼、海鲷和虹鳟。表型数据来自先前的研究,例如鳃评分、体重和疾病攻击后的死亡天数。数据集包括来自84个全同胞家系(每个家系1-39条鱼)的1481条大西洋鲑,使用17156个SNP进行基因分型;来自195个全同胞家系(每个家系1-21条鱼)的1214条鲤鱼,使用约12K个SNP;来自73个全同胞家系(每个家系2-144条鱼)的777条海鲷,使用约12K个SNP;以及来自58个全同胞家系(每个家系10-18条鱼)的749条虹鳟,使用57K个SNP。使用Beagle4.1进行基因型插补,然后使用Plink(v1.90)进行质量控制。过滤后,大西洋鲑、鲤鱼、海鲷和虹鳟分别剩下10383、8531、8545和37958个SNP用于分析。BLUP、GBLUP、RRBLUP、WGBLUP和GFBLUP模型在DMU软件中实现。BayesA、BayesB、BayesCpi、BayesR和BayesLasso在BGLR R包中实现。SVR、KRR、RF、XGB和EN使用Scikit-learn Python包实现。
如表3所示,基于系谱信息的BLUP模型的预测准确性明显低于基于基因组的模型。在修改的基于BLUP的模型中,加权GBLUP(WGBLUP)在预测准确性方面优于GBLUP,而GFBLUP导致准确性下降。在大多数情况下,某些贝叶斯模型比GBLUP提供更高的预测精度。机器学习方法在两个物种中显示出优势,但偶尔在特定情况下导致较低准确性。总体而言,虽然贝叶斯模型和机器学习方法在提高基因组预测准确性方面具有巨大潜力,但它们的性能在实际应用中需要进一步评估。GBLUP仍然是最常用
生物通微信公众号
知名企业招聘