基于插补多组学数据的甘蓝型油菜单交种预测:一项提高基因组选择准确性的案例研究

【字体: 时间:2025年09月12日 来源:Genome 1.7

编辑推荐:

  本综述系统评估了在甘蓝型油菜杂交育种中,利用插补的全基因组测序(WGS)标记(包括单核苷酸多态性(SNP)和结构变异(SV))及基因表达数据对基因组预测(GP)准确性的影响。研究通过结合SNP芯片、WGS和RNA测序技术,并采用插补方法扩展数据至整个群体,发现尽管增加了标记密度和连锁不平衡(LD),但插补多组学数据并未显著提升预测准确性,归因于信息冗余、插补误差及环境对基因表达的影响,表明SNP芯片仍是油菜杂交育种中可靠的基因组预测工具。

  

研究背景与意义

随着测序技术的飞速发展,植物基因组的组装和表征已达到高分辨率水平。在育种项目中,这些数据与表型信息结合,用于基因组预测(Genomic Prediction, GP),以根据遗传谱选择基因型。尽管单核苷酸多态性(SNP)芯片常用于基因分型,但它们仅捕获全基因组多样性的一部分。为解决这一问题,一种方法涉及使用芯片对整个群体进行基因分型,同时对子集进行全基因组测序(Whole-Genome Sequencing, WGS)或评估基因表达谱,然后通过插补将数据扩展至整个群体。本研究评估了插补的WGS标记(SNP和结构变异(Structural Variations, SV))和表达数据对甘蓝型油菜杂交育种群体基因组预测的影响。

材料与方法

研究使用了商业甘蓝型油菜杂交育种项目的表型和基因型数据。群体分为两组:群体A包括单交杂交种,其亲本通过SNP芯片技术进行基因分型,杂交种在田间试验中进行测试;群体B由与群体A密切相关的系组成,这些系通过WGS和mRNA测序以及SNP芯片进行基因分型。利用群体B的数据与群体A的SNP芯片标记,插补SNP、SV和表达数据至群体A。最后,应用基因组预测模型评估插补多组学数据对预测准确性的影响。

群体A的描述

群体A包括382个双单倍体(DH)系和15个雄性不育自交系,用于创建790个单交杂交种。亲本系使用甘蓝型油菜60K SNP芯片进行基因分型。表型数据来自多环境田间试验,评估了种子产量、田间出苗率、开花时间、株高、种子含油量、种子蛋白质含量和种子硫苷含量等性状。通过混合线性模型计算调整后的进入平均值,并估计遗传力。

群体B的描述

群体B包括97个自交系,使用甘蓝型油菜15K芯片进行基因分型,并进行短读长和长读长WGS以及RNA测序。DNA和RNA提取后,进行测序和变异检测,包括SNP和SV的识别,以及基因表达量化。

插补方法

使用"minimac"工具插补基因型标记(SNP和SV),使用"TIGAR"工具插补表达谱。插补后,基于质量指标(如R2值>0.8和次要等位基因频率≥5%)进行过滤,确保数据可靠性。

群体结构分析

通过主成分分析(PCA)评估群体A和B之间的遗传重叠,基于共享SNP标记计算遗传距离,显示两群体间存在明显重叠,但群体B遗传多样性较低。

多组学预测

采用GBLUP模型进行基因组预测,包括一般配合力(General Combining Ability, GCA)和特异性配合力(Specific Combining Ability, SCA)效应。模型使用不同数据输入(如芯片SNP、插补WGS SNP、插补SV、插补表达谱及其组合)进行预测,并通过交叉验证评估准确性。

基因组关系和连锁不平衡分析

计算基于不同标记类型的基因组关系矩阵,并评估其相关性。同时,分析连锁不平衡(LD)衰减模式,比较不同标记类型的LD水平。

结果

群体结构显示群体A和B之间存在遗传重叠,但群体B多样性较低。LD分析表明,插补标记增加了标记密度,尤其在A亚基因组上LD衰减较慢,但整体LD模式与芯片SNP相似。基因组预测准确性 across all traits was similar between SNP array data and imputed multiomic data, with no significant improvement observed. 例如,种子产量的预测准确性在0.476至0.819之间,具体取决于验证集类型(全体验证集、T1杂交种或T2杂交种)。插补表达谱的预测准确性较低,但加入SCA效应后有所改善。

讨论

插补多组学数据未提高基因组预测准确性,可能原因包括信息冗余、插补误差以及环境对基因表达的影响。芯片SNP已有效捕获关键数量性状位点(QTL),因此额外标记提供有限价值。此外,群体结构和不完全的因子设计可能限制了SCA效应的准确估计。未来研究应优化插补方法,并在多环境中收集表达数据以减少环境偏差。

结论

在甘蓝型油菜杂交育种中,基于SNP芯片的基因组预测已足够准确,插补多组学数据并未带来显著改善。SNP芯片因其可靠性和成本效益,仍是基因组选择的优选工具。研究强调在复杂育种体系中,平衡数据密度与信息质量的重要性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号