基于单倍型参考面板的栽培草莓低深度全基因组测序基因型填充研究

《BMC Genomics》:Genotype imputation from low-coverage WGS using haplotype reference panels in cultivated strawberry

【字体: 时间:2025年11月20日 来源:BMC Genomics 3.7

编辑推荐:

  本研究针对草莓全基因组测序成本高的问题,构建了高质量单倍型参考面板,通过SHAPEIT5统计分型和GLIMPSE2基因型剂量填充,实现了1x低深度WGS数据的高精度基因型填充,为多倍体作物高通量基因分型提供了经济高效的解决方案。

  
在当今基因组学时代,全基因组测序(WGS)已成为作物遗传育种研究的重要工具。然而,对于像栽培草莓(Fragaria × ananassa)这样的异源八倍体作物来说,全基因组测序的高成本仍然是限制其大规模应用的主要瓶颈。草莓作为全球重要的浆果作物,其基因组复杂性给基因分型带来了独特挑战:四个高度相似的亚基因组导致序列比对模糊和变异检测错误,进而影响后续遗传分析的质量。
传统上,育种项目通常采用SNP芯片进行基因分型,但这种方法只能检测已知变异,缺乏灵活性。虽然WGS能够检测更广泛的遗传变异(包括稀有变异),但每个样本的成本较高。低深度全基因组测序与基因型填充相结合的策略,为降低基因分型成本提供了可行方案,但这一方法在异源八倍体草莓中尚未得到充分优化。
Koorevaar等人在《BMC Genomics》上发表的研究,针对这一技术难题展开了系统研究。研究团队旨在构建高质量的草莓单倍型参考面板,并评估其在低深度(1x)全基因组测序数据基因型剂量填充中的应用效果。单倍型(haplotype)是指从单个亲本遗传而来、位于同一染色体上的变异组(包括SNP、插入和缺失),相比单个双等位基因SNP,单倍型分析在基因型填充和全基因组关联分析(GWAS)中具有明显优势。
研究团队采用了几个关键技术方法:首先,他们整合了765个草莓样本的WGS数据,通过结合高测序深度(>15x)和基于平均等位基因平衡(AAB)、连锁不平衡(LD)和孟德尔错误率(MER)的变异过滤策略,显著减少了基因分型错误;其次,使用SHAPEIT5进行统计分型,并评估了分型准确性;最后,通过GLIMPSE2对三个遗传差异群体(加州、佛罗里达和HCFF)的下采样数据(降至1x覆盖度)进行基因型剂量填充,系统评估了不同参考面板配置对填充准确性的影响。
过滤方法对SNP保留的影响
研究团队应用三种过滤方法(AAB、LD和MER)后,在所有染色体上保留了722万个SNP。平均每个染色体保留约258K个SNP,其中7.22M个SNP是三种方法共同保留的。每种方法都标记了至少166万个其他两种方法未识别的SNP用于去除,表明综合过滤策略能有效提高SNP数据集的质量。
分型准确性
研究发现转换错误率(SER)与测序深度存在明显关联,测序深度高于25x时转换错误率最低。最终分析数据集包含653个平均测序深度至少为15x的样本。翻转错误(flip errors,即双转换错误)与剩余转换错误之间存在线性关系,表明它们有共同的潜在原因。转换错误并未在最低次要等位基因频率(MAF)区间中富集,其频率在不同MAF区间中相对一致。
分型参数优化和单倍型区块长度
通过优化SHAPEIT5参数,研究发现将有效群体大小(hmm-ne)设置为7,500时,可获得略好于默认值15,000的分型准确性,平均转换错误率为0.92%。产生的单倍型区块相对较短,中位长度为30kb,平均长度为155kb,累积分析得到的平均质量单倍型N50(QHN50)为654kb,平均QHN90为101kb。
填充面板组成
主成分分析(PCA)显示,加州、佛罗里达和HCFF三个群体形成了明显分离的遗传簇。研究构建了六个不同的单倍型参考面板来评估面板大小和组成对填充准确性的影响。全群体面板显示了最高的多样性(100%SNP是多态性的),而较小的面板子集多态性比例较低。
不同单倍型参考面板的填充准确性
总体而言,不同群体的样本填充准确性都很高,r2值超过0.85,总一致性率超过0.92。但当使用cal_flo参考面板填充HCFF样本时,一致性率较低(平均0.90)。纯合子调用的一致性高于杂合子调用,加州样本在所有面板中 consistently显示最高的纯合子SNP一致性。当参考面板中包含HCFF样本时,各群体间的一致性差异最小。
F. vesca来源的A亚基因组填充准确性更高
染色体水平填充结果显示,来源于F. vesca的A亚基因组 consistently显示出比B、C和D亚基因组更高的填充准确性。多个(但非所有)A亚基因组也显示出更高的QHN90值,表明单倍型区块更长。A亚基因组较低的遗传多样性和单倍型多样性可能促进了更准确的变异检测和单倍型重建。
研究结论与意义
本研究成功构建了草莓高质量单倍型参考面板,证明将高测序深度与严格变异过滤相结合,能将统计分型的转换错误率控制在约1%,对应平均QHN50为654kb。研究表明,一旦建立包含大部分(即使不是全部)可能等位基因的参考面板,低深度(1x)测序品种就能以高精度进行基因型剂量填充,用于下游应用。
基因分型错误(而非等位基因频率)是转换错误的主要驱动因素。参考基因组亲缘关系影响填充准确性差异,与参考基因组更接近的样本显示更高的填充准确性。参考面板的遗传多样性和大小共同驱动填充准确性,但即使多样性有限的参考面板也能实现合理的填充准确性。
研究还发现,来源于F. vesca的A亚基因组相比其他亚基因组具有更高的填充准确性,这可能与其较低的遗传变异和单倍型多样性有关。三个异常值的识别强调了数据质量控制在实践中的重要性。
这项研究为异源多倍体作物(如栽培草莓)的高通量WGS基因分型提供了可行策略,表明单个构建良好的单倍型面板可以支持跨遗传多样化育种品种的稳健剂量填充。该方法也可应用于其他需要密集基因分型但资源有限的作物。研究表明,对约70个具有遗传代表性的样本进行≥25x深度的测序,足以构建适合低深度数据填充的参考面板,为作物育种项目中成本效益高的基因分型提供了实用解决方案。
除了基因型填充,单倍型参考面板在育种应用中还有多种用途,包括单倍型基于亲本检查、系谱重建、精英单倍型选择、基因组预测和改进诊断标记开发。本研究中达到的平均QHN50为654kb的单倍型连续性水平,对于单倍型追踪、基因组预测或诊断标记开发等应用来说可能已经足够。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号