低覆盖度全基因组浅层测序与基因型填补技术在中间偃麦草基因组选择中的应用与评估

《The Plant Genome》:A low-coverage skim-sequencing and imputation pipeline for genomic selection

【字体: 时间:2025年10月24日 来源:The Plant Genome 3.8

编辑推荐:

  本文综述了低覆盖度全基因组浅层测序(skim-seq)结合STITCH基因型填补算法在复杂基因组物种(如中间偃麦草IWG)基因组选择(GS)中的应用。研究证明,该方法(覆盖度0.01x–0.05x)能以低成本获得高密度遗传标记,其基因组预测准确性与传统基因分型测序(GBS)相当,为大型育种项目中经济高效地实施GS提供了可行方案。

  
基因组选择(Genomic Selection, GS)通过利用训练群体的基因型和表型数据建立模型,从而仅根据候选个体的基因型预测其基因组估计育种值(Genomic Estimated Breeding Value, GEBV),能够加速育种进程。然而,实施GS的一个主要障碍是需要一种适用于大规模育种项目、可扩展且经济高效的高密度遗传标记系统。随着测序成本的持续下降,低覆盖度全基因组浅层测序(skim-seq)已成为GS中一种有吸引力的方法。
材料与方法
研究所用植物材料包括来自The Land Institute(TLI)、Forage and Range Research Agriculture Research Service unit(FRR)和University of Minnesota(UMN)的中间偃麦草(Intermediate Wheatgrass, IWG, Thinopyrum intermedium)育种群体。IWG是一种异花授粉、异源六倍体(allohexaploid)物种,具有大型基因组(约12.7 Gb)。研究共使用了9780个遗传上独特的个体(genet)进行skim-seq(目标覆盖度约0.05x),其中445个个体用于变异发现(约2x覆盖度),46个个体用于准确性评估(约17x覆盖度)。此外,4226个个体拥有基因分型测序(Genotyping-By-Sequencing, GBS)数据和表型数据,用于基因组预测的比较。
DNA提取使用MagMAX Plant DNA Isolation kit。skim-seq文库构建遵循改良协议,每个文库多重合并576至1248个样本,在Illumina NovaSeq和NovaSeqX+平台上进行测序。高覆盖度样本使用Illumina TruSeq DNA PCR-free方法制备。GBS文库采用双酶切法制备,使用TASSEL GBSv2流程进行基因型调用,并利用Beagle version 4.1进行基因型填补。
全基因组测序数据的生物信息学处理流程包括:使用fastp进行接头修剪和质量过滤;使用HISAT2将 reads 比对至IWG参考基因组(版本v3.1);使用samtools过滤得到唯一、一致的比对,生成排序并建立索引的BAM文件。使用BCFtools在445个变异发现样本中调用变异,并过滤得到高质量的双等位基因单核苷酸多态性(Single Nucleotide Polymorphism, SNP)位点(最小质量分数60,测序深度在平均值±2个标准差范围内,至少50%样本有数据,次要等位频率Minor Allele Frequency, MAF > 5%),共获得约2820万个全基因组高质量SNP。
使用STITCH(Sequencing to Imputation Through Constructing Haplotypes)软件(v.1.6.9)进行基因型填补。评估了不同祖先单倍型数量(K = 4, 8, 12, 16, 20, 24, 28)对填补准确性的影响。填补后的VCF(Variant Call Format)文件经过后处理,过滤标准包括:STITCH信息分数(info score)> 0.80、杂合率在5%–50%之间、MAF > 1%。为了基因组预测,从过滤后的位点中随机抽取了不同数量的SNP(32,000, 64,000, 96,000),以及从基因区域(基因模型上下游5000 bp内)随机抽取不同密度的SNP(1个、2个、3个标记/基因区域)。
准确性评估使用46个高覆盖度样本作为验证集。将其原始fastq文件下采样至不同覆盖度(0.01x, 0.04x, 0.07x, 0.10x),并与9780个育种群体样本一起进行STITCH填补。评估指标包括基因型一致性(concordance)、填补质量分数(Imputation Quality Score, IQS)和决定系数(R2)。
基因组预测比较使用了五个性状的表型数据(自由脱粒率、株高、种子重量、落粒性、穗产量)。表型数据通过线性混合模型计算最佳线性无偏预测(Best Linear Unbiased Prediction, BLUP)。利用rrBLUP R包进行五折交叉验证,评估基于不同基因型数据集(GBS vs. 各种skim-seq数据集)的基因组预测准确性。
结果
变异发现结果显示,在445个样本中发现了2820万个高质量SNP,变异密度在不同亚基因组间存在差异(J基因组最高,V基因组最低)。与GBS标记相比,WGS(Whole-Genome Sequencing)发现的变异沿染色体分布更均匀,没有表现出在着丝粒周围区域的明显减少。
填补准确性分析表明,随着信息分数阈值的提高,所有准确性指标(一致性、IQS、R2)均有所提升。在信息分数 > 0.80时,能获得高准确性的基因型剂量数据。祖先单倍型数量K的影响显示,K = 8或12时,在准确性和计算效率之间取得了最佳平衡。测序覆盖度的影响分析显示,R2随覆盖度增加而提升最明显,从0.01x到0.04x提升最大,之后趋于平缓,表明0.05x的目标覆盖度是合理的。
基因组预测结果显示,基于skim-seq数据(无论随机标记还是基因区域标记)的交叉验证准确性与GBS数据相当。对于五个性状,不同标记集之间的预测准确性(BLUP与预测GEBV之间的相关性)存在统计学显著差异,但实际差异很小,且没有一种标记集在所有性状上 consistently 更优。在选择排名(如前100或后100个体)上,不同skim-seq数据集之间以及skim-seq与GBS数据集之间均有较高的重叠率(41%–98%),表明在育种应用中,不同方法均可取得进展。
讨论
研究表明,利用STITCH对超低覆盖度(0.05x)skim-seq数据进行基因型填补,可以在大型、复杂的植物育种群体中获得高密度、准确的基因型信息,用于基因组选择。该方法成本效益高,无需预先开发高密度参考面板,且产生的全基因组序列数据具有长期保存和再利用价值。STITCH算法对参数设置(如K值)具有稳健性,便于育种项目推广应用。虽然skim-seq目前需要一定的计算资源和生物信息学支持,但随着技术进步和流程优化,它有望成为在资源有限物种和大型育种项目中实施GS的流行且强大的工具。该方法特别适用于像IWG这样具有大基因组、多倍体和高度杂合性的物种,为加速其育种进程提供了有效手段。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号