
-
生物通官微
陪你抓住生命科技
跳动的脉搏
利用大数据增强冬小麦基因组预测:多育种项目数据整合提升产量与株高预测准确性
【字体: 大 中 小 】 时间:2025年08月24日 来源:Theoretical and Applied Genetics 4.2
编辑推荐:
本研究针对小麦基因组预测准确性不足的挑战,整合了来自8个育种项目的18,000份冬小麦品系和250,000个田块的表型数据,构建了超大规模训练群体。通过优化SNP标记过滤策略(MAF>5%,缺失值<50%)和引入全基因组互作效应模型(A+E),研究实现了谷物产量预测能力提升97%、株高预测提升44%,证实大数据整合能显著突破现有预测瓶颈。该成果为加速小麦育种遗传增益提供了可推广的范式,发表于《Theoretical and Applied Genetics》。
研究背景与意义
全球小麦产量需在2050年前翻倍才能满足人口增长需求,但当前年增产率仅0.9%,面临严峻挑战。基因组选择(Genomic Selection, GS)被视为突破瓶颈的关键技术,其预测准确性受训练群体规模、遗传多样性等因素制约。既往研究表明,整合不同来源的育种数据能提升预测能力,但测试集多来自合并数据本身,且SNP平台异质性导致的标记缺失问题尚未系统解决。此外,全基因组互作效应(epistasis)对预测的影响在跨群体大数据场景中仍属空白。
关键技术方法
研究整合了德国8个冬小麦育种项目(Exp-1至Exp-8)的18,211份品系数据,采用两阶段混合模型(BLUEs+BLUPs)校正环境效应。基因型数据通过90k SNP芯片获取,经严格质控(MAF>5%,缺失值<80%)后保留13,105个标记。预测模型比较了加性效应(A)、全基因组互作(A+E)、亚基因组(A+sgA/sgB/sgD)和染色体水平互作(A+chrA/chrB/chrD)等9种方案,以德国品种登记后试验(Exp-PRT)为独立测试集验证。
研究结果
遗传多样性特征
通过Rogers'距离分析发现,Exp-3品系遗传多样性显著高于其他群体(平均距离0.37 vs 0.33-0.36)。测试集Exp-PRT与各训练集的遗传距离分布均衡(0.35-0.37),主坐标分析显示育种群体无明显亚结构分化(图1d)。这为跨项目数据整合提供了遗传基础。
表型数据质量
Exp-PRT测试集表现出超高遗传力(H2>0.96),其谷物产量和株高的基因型方差(σg2)分别为4.21 (dt ha-1)2和12.34 cm2(图2)。整合后的训练群体遗传力达0.80(产量)和0.92(株高),显著优于单个育种项目数据(H2=0.61-0.76)。
预测性能突破
整合所有训练数据使产量预测能力从单项目的0.31-0.55提升至0.61(+97%),株高从0.48-0.65提升至0.69(+44%)(图3)。关键驱动因子分析显示,训练群体规模与有效群体大小比值(N/Ne)与预测能力呈强正相关(r=0.60-0.62,p<0.001)(图4)。
标记过滤策略
当训练群体>5,000基因型时,保留MAF<5%的标记可提升预测能力;缺失值过滤阈值设定为50%时效果最优(图5)。这与常规MAF过滤准则形成对比,提示大数据场景下低频等位基因可能携带重要遗传信息。
互作效应贡献
全基因组互作模型(A+E)使产量预测在小群体(N<3,000)中提升12%,但随训练集扩大效果递减(图6a)。亚基因组分析发现,B亚基因组互作对产量预测提升最显著(+8%),而A亚基因组对株高预测贡献最大(+6%)(图6c-d)。染色体水平互作未显示额外优势。
结论与展望
该研究首次证实跨机构数据整合能实质性突破小麦基因组预测天花板。通过建立标准化数据处理流程(如MAF>5%、缺失值<50%),解决了异质SNP平台整合难题。发现N/Ne是预测能力的核心参数,为优化训练群体构建提供量化指标。虽然互作效应贡献度随数据规模增大而降低,但特定亚基因组的定向建模仍具价值。未来需建立数据共享生态,结合多组学和环境数据进一步释放预测潜力。
(注:文中所有数据结论均来自原文,专业术语如BLUEs=最佳线性无偏估计;BLUPs=最佳线性无偏预测;MAF=次要等位基因频率)
生物通微信公众号
知名企业招聘