基于基因组选择优化马拉巴笛鲷生长性状预测:SNP密度与训练群体规模的平衡策略
《Aquaculture》:GWAS and transcriptome analysis reveal male heterogametic sex-specific markers and candidate genes in darkbarbel catfish (
Pelteobagrus vachelli)
【字体:
大
中
小
】
时间:2025年10月21日
来源:Aquaculture 3.9
编辑推荐:
本研究针对传统水产育种方法精度有限的问题,通过基因组选择(GS)优化马拉巴笛鲷(Lutjanus malabaricus)重要经济性状的遗传改良。研究人员评估了不同SNP密度(500-56,378个)、训练群体规模(80-2038个体)和三种GS模型(GBLUP、BayesR、KAML)对体重(BW)、体长(TL)等5个性状预测精度的影响。结果表明,使用5000个SNP和1200个训练个体的GBLUP模型可实现成本效益最优的预测精度(0.45-0.50),为东南亚地区该物种的基因组育种计划提供了关键参数。
在水产养殖业蓬勃发展的今天,如何高效选育优良品种一直是产业面临的核心挑战。传统育种方法依赖系谱信息进行选择,但这种方法存在明显局限:准确性较低、系谱记录易出错,且无法充分利用家系内的遗传变异。随着基因组学技术的发展,基因组选择(Genomic Selection, GS)为水产育种带来了新的曙光。这种技术通过全基因组单核苷酸多态性(Single Nucleotide Polymorphism, SNP)标记来估算基因组育种值(Genomic Estimated Breeding Value, GEBV),大大提高了选择的准确性和效率。
马拉巴笛鲷(Lutjanus malabaricus)作为东南亚地区具有重要商业价值的海水养殖物种,目前尚未建立系统的选育计划。此前研究表明,该物种在生长、体型和营养价值等收获性状方面具有显著的改良潜力。为了推动马拉巴笛鲷遗传改良计划的实施,迫切需要优化其基因组选择策略,特别是在SNP标记密度和训练群体规模等关键参数方面找到最佳平衡点。
本研究旨在系统评估不同GS策略对马拉巴笛鲷重要经济性状预测精度的影响,为建立高效的基因组育种计划提供科学依据。研究团队收集了来自三个养殖场的2547尾马拉巴笛鲷样本,测量了体重(Body Weight, BW)、全长(Total Length, TL)、体深(Body Depth, BD)等表型数据,并利用定制化的Axiom? myDesign? 70K红鱼SNP芯片进行基因分型。通过分析五种收获性状在不同SNP密度(500、1000、5000、10000、30000和56378个SNP)、不同训练群体规模(80、400、800、1200、1600和2038个个体)以及三种GS模型(GBLUP、BayesR和KAML)下的预测表现,全面评估了各因素对基因组预测精度的影响。
关键技术方法包括:使用定制SNP芯片对2547个样本进行基因分型;采用五折交叉验证评估预测精度;比较随机选择与GWAS排序的SNP子集效果;通过成本-精度分析确定最优SNP密度。
研究结果显示,训练群体规模对预测精度有显著影响。随着训练群体规模的增大,所有模型的预测精度均呈现上升趋势,在1600个个体左右达到稳定平台。例如,体重性状的GEBV预测精度从400个样本时的0.22-0.25提高到2038个样本时的0.45-0.50。同时,预测稳定性的标准偏差也从0.17-0.41降低到0.07-0.08,表明更大训练群体能提供更可靠的预测结果。
SNP标记密度分析表明,预测精度随SNP密度增加而提高,但在5000个SNP后改善有限。使用56378个SNP的GBLUP和KAML模型对体重的预测精度为0.50,而仅使用500个SNP时精度为0.36-0.37。这一发现提示,中等密度的SNP面板(5000-10000个SNP)可在保证精度的同时显著降低基因分型成本。
模型比较结果显示,不同GS模型对各性状的预测表现存在差异。GBLUP和KAML在体重和全长性状上表现相似(精度0.45-0.50),均优于BayesR(0.40-0.45)。然而,BayesR在体深、富尔顿条件因子(Fulton's condition factor, K)和体型指数(Body Shape Index, BSI)等性状上表现最佳,使用全数据集时分别达到0.62、0.78和0.71的预测精度。这种差异可能与各性状的遗传架构有关:生长性状多为多基因控制,而体型相关性状可能受少数大效应基因影响。
值得注意的是,基于GWAS排序的SNP选择策略在群体内预测中表现优异,特别是在低SNP密度(500和1000个SNP)下,对生长性状的预测精度比随机选择提高了一倍以上。然而,这种优势具有性状特异性,GWAS排序策略仅对进行GWAS分析的性状及其遗传相关性状有效。更重要的是,在跨群体预测场景下,GWAS排序的SNP子集完全失效,而随机选择的SNP子集仍能保持一定的预测能力。这一发现对SNP芯片设计具有重要指导意义:针对特定群体的优化育种可考虑GWAS排序策略,而需要跨群体应用的通用芯片则应采用随机选择策略。
成本-精度权衡分析显示,虽然预测精度随SNP密度增加而提高,但超过5000个SNP后改善有限。中等密度面板(5000-10000个SNP)在每样本18.8-20.1美元的成本下可实现0.48-0.49的预测精度,代表了成本效益的最佳平衡点。与70000个SNP的高密度面板相比,成本降低约20%,而精度损失仅为4%。
讨论部分深入分析了各因素对GS效果的影响机制。训练群体规模的效应与物种的连锁不平衡(Linkage Disequilibrium, LD)模式密切相关。马拉巴笛鲷中预测精度在1200-1600个训练个体时达到平台期,这一阈值低于某些水产物种报道的4000个体,可能反映了该物种特定的遗传特征。SNP密度与预测精度的关系则受到性状遗传架构的影响:多基因性状通常需要更高密度的标记来捕捉足够的遗传变异,而受大效应基因控制的性状可能在较低密度下即可获得满意精度。
三种GS模型的性能差异进一步印证了"没有单一最优模型"的观点。GBLUP作为线性混合模型(Linear Mixed Model, LMM)的代表,假设所有SNP效应呈正态分布且方差相等,适用于多基因性状。BayesR作为贝叶斯方法的代表,通过混合分布模型捕捉不同大小的SNP效应,在处理具有复杂遗传架构的性状时表现突出。KAML结合了GWAS和机器学习元素,但其在本研究中的表现与GBLUP相当,提示对于研究性状而言,简单的遗传架构可能不需要复杂的模型来捕捉。
跨群体预测精度下降的现象强调了环境互作(Genotype by Environment interaction, G×E)和群体遗传结构的重要性。本研究中,海洋水产中心(Marine Aquaculture Centre, MAC)群体与农场群体的遗传分化导致预测精度显著降低,这一发现对育种实践具有重要启示:训练群体应尽可能覆盖目标群体的遗传多样性,或需要开发专门针对跨群体预测的统计模型。
全基因组关联分析(Genome-Wide Association Study, GWAS)鉴定出两个与体重相关的显著SNP,其中一个注释为Rho GTP酶激活蛋白42(ARHGAP42)基因,该基因参与细胞骨架组织和生长调节过程。尽管这些SNP未达到基因组-wide显著性阈值,但它们为理解马拉巴笛鲷生长性状的分子基础提供了线索。
本研究为马拉巴笛鲷基因组育种计划的实施提供了具体参数指导:使用5000个SNP的中等密度芯片、组建1200个个体的训练群体、针对不同性状选择适宜GS模型,可在保证预测精度的同时最大化成本效益。这些发现不仅对马拉巴笛鲷育种具有直接应用价值,也为其他水产物种的GS优化提供了参考框架。随着基因组技术的不断发展和成本降低,基因组选择有望在水产育种中发挥越来越重要的作用,为全球食品安全和可持续水产养殖发展做出贡献。
研究的局限性包括样本量相对有限,未能测试更大训练群体的效果;同时,跨群体预测的挑战仍需进一步研究解决。未来工作可探索多群体GS模型、SNP功能注释加权策略以及低密度SNP填充等高阶技术,进一步提升基因组选择的效率和适用性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号