斑点海鲈低深度全基因组测序数据的基因型插补流程优化及其在基因组预测中的应用

【字体: 时间:2025年09月11日 来源:Aquaculture Reports 3.7

编辑推荐:

  本研究针对斑点海鲈(Lateolabrax maculatus)遗传改良中高通量基因分型成本高昂的问题,系统评估了基于lcWGS数据的基因型插补策略。研究人员通过比较STITCH、GLIMPSE2和BEAGLE三种插补方法,发现GLIMPSE2结合最优参考面板的方案最有效,并证明3×测序深度插补数据可获得与hcWGS相当的基因组预测精度,为水产育种提供了经济高效的基因分型解决方案。

  

随着水产养殖业的快速发展,斑点海鲈(Lateolabrax maculatus)作为一种具有重要经济价值的海水鱼类,其遗传改良需求日益迫切。然而,传统的高深度全基因组测序(high-coverage whole genome sequencing, hcWGS)虽然能够提供全面的遗传变异信息,但对大规模群体进行测序的成本令人望而却步,严重限制了基因组选择(genomic selection, GS)和全基因组关联分析(genome-wide association studies, GWAS)在水产育种中的应用。

面对这一挑战,低深度全基因组测序(low-coverage whole genome sequencing, lcWGS)结合基因型插补(genotype imputation)技术应运而生,成为一种经济高效的替代方案。这种策略通过对少量个体进行高深度测序构建参考面板(reference panel),然后对大量个体进行低深度测序并通过计算手段推断缺失基因型,从而以较低成本获得高质量的基因组数据。尽管这种方法在人类和一些畜禽物种中已经取得成功,但在水产物种特别是斑点海鲈中的应用仍处于探索阶段。

为了填补这一空白,研究人员开展了一项系统性的研究,旨在开发适用于斑点海鲈的优化基因型插补流程,并评估其在基因组预测中的实际应用价值。这项研究最近发表在《Aquaculture Reports》期刊上,为水产育种提供了重要的技术参考。

在研究设计上,作者团队收集了1107个斑点海鲈样本的高深度全基因组测序数据,这些样本来自四个不同的数据集:100data、DY、TS和YT群体,涵盖了不同的地理来源和养殖群体。通过DownsampleSam工具将hcWGS数据下采样到不同深度(0.5×、1×、2×、3×、5×)来模拟lcWGS数据。研究首先使用100data数据集初步比较了STITCH、GLIMPSE2和BEAGLE三种插补方法的性能;随后详细评估了参考面板和目标数据对GLIMPSE2插补准确性的影响;接着系统比较了GLIMPSE2和STITCH在三个数据集上的插补精度;最后通过基因组预测(genomic prediction, GP)分析了插补后数据在实际育种中的应用价值。关键技术包括全基因组重测序、变异检测(使用GATK)、连锁不平衡分析(使用PopLDdecay)、群体结构分析(使用ADmixture)、基因型插补(使用STITCH和GLIMPSE2)以及基因组预测(使用支持向量机SVM)。

3.1. SNP identification and statistics

经过高质量测序和过滤后,四个数据集共产生了大量clean reads,平均测序深度分别为15.93×、10.00×、10.04×和10.48×。变异检测和质量控制后,共鉴定出5,244,698个SNP作为插补标记,这些SNP覆盖了622.44 Mb的物理距离,平均密度为每118 bp一个SNP,显示出在基因组中密集而均匀的分布特征。

3.2. LD and population structure analysis

连锁不平衡分析显示,随着SNP对之间距离的增加,位点间的平方相关系数(r2)迅速下降。在250 bp距离处,四个数据集的r2值分别为0.0932、0.0768、0.0826和0.1045,其中YT数据集表现出相对较高的LD水平。主成分分析表明YT数据集包含复杂的遗传群体,而其他三个数据集的个体遗传上更同质。Admixture分析确定所有个体的最优群体分层数为5,基于遗传成分的q值,为四个数据集分别分配了1、1、2和4个群体,进一步突显了YT数据集较高的遗传多样性。

3.3. Computational efficiency comparison of genotype imputation pipelines

通过计算效率评估发现,GLIMPSE2表现出最优异的计算效率,仅需10.8 CPU小时,相比BEAGLE(79.0 CPU小时)减少了86.3%,相比STITCH(252.0 CPU小时)减少了95.7%,确立了GLIMPSE2作为最高效的插补流程。

3.4. Accuracy evaluation of different genotype imputation pipelines for 100data dataset

使用100data数据集对三种插补方法的初步评估显示,在不同测序深度下,三种方法的准确性存在显著差异(P < 0.0001)。GLIMPSE2表现出最高的插补准确性,BEAGLE最低,STITCH处于中间水平。在5×测序深度下,STITCH、GLIMPSE2和BEAGLE的GC值分别为0.889、0.919和0.727,相应的R2值分别为0.923、0.935和0.806。

3.5. Effect of reference and target data on GLIMPSE2 imputation accuracy

参考面板质量对插补准确性影响显著。研究发现,在构建参考面板时,群体遗传多样性比样本量更重要。使用ALL参考面板(结合所有样本)在0.5×深度下获得了0.862的GC值和0.884的R2值,显著优于仅使用DY+TS样本构建的参考面板。不同目标数据集间的比较显示,YT数据集在低测序深度下表现出更高的插补准确性,这与其较高的LD水平、遗传相关性和多样化的群体结构有关。

3.6. Comparison of imputation accuracy between GLIMPSE2 and STITCH for three datasets

在包含1007个样本的大规模比较中,GLIMPSE2和STITCH的插补准确性都随着测序深度的增加而提高。在2×、3×和5×深度下,两种方法在三个数据集上的GC和R2值无显著差异,但在0.5×和1×较低深度下,GLIMPSE2通常表现出优于STITCH的插补准确性,特别是在TS和YT数据集上。

3.7. Genomic prediction using lcWGS data after GLIMPSE2 imputation

基因组预测分析表明,使用3× lcWGS数据经过GLIMPSE2插补后,可以获得与hcWGS数据相当的预测准确性。在TS和YT数据集上,当标记数量超过50时,插补lcWGS数据与WGS基因型数据之间的预测准确性非常一致,R2值分别为0.909和0.935。

研究结论与讨论部分强调,本研究系统评估了不同的基因型插补流程,发现GLIMPSE2结合ALL参考面板的策略是斑点海鲈目前最优的插补方案。研究结果明确表明,在构建参考面板时,群体遗传多样性比样本量更重要,而参考数据与目标数据之间的群体结构、遗传相关性和LD水平是影响插补性能的重要因素。

这项研究的重要意义在于首次建立了斑点海鲈的公开参考面板,包含1107个样本,为后续研究提供了宝贵资源。同时研究证明,lcWGS数据结合GLIMPSE2插补可以获得与hcWGS数据相当的基因组预测结果,这大大降低了基因分型成本,使得对大规模群体进行基因组选择成为可能。

特别值得关注的是,研究发现在低测序深度(3×)下,插补数据就能达到令人满意的准确性,这进一步降低了技术门槛和应用成本。研究人员还指出,尽管当前的研究取得了重要进展,但通过增加家庭代表性个体来扩展参考和目标数据,仍有进一步提高插补准确性的空间,特别是在较低测序深度下。

该研究不仅为斑点海鲈的遗传育种提供了实用的技术方案,也为其他水产养殖物种的基因型插补研究提供了重要参考,推动了基因组选择技术在水产育种中的广泛应用,对加速水产养殖品种的遗传改良进程具有重要的实践意义。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号