整合基因组预测与机器学习-GWAS工作流解析大豆基因型与环境互作效应

【字体: 时间:2025年08月26日 来源:Plant Methods 4.4

编辑推荐:

  本研究针对欧洲大豆育种中基因型与环境互作(GxE)效应预测精度不足的问题,开发了一种整合基因组预测与机器学习-GWAS的创新工作流。通过比较GBLUP(基因组最佳线性无偏预测)与随机森林、XGBoost等机器学习方法,发现拆分主效遗传(bG)与互作效应(bGE)建模可显著提升预测性能,并利用ML-GWAS鉴定出50个关键SNP标记构建精简模型。该研究为欧洲气候适应性大豆品种选育提供了高效标记筛选与预测工具。

  

研究背景与意义

大豆作为全球重要的粮油兼用作物,欧盟80%需求依赖进口,其欧洲本土化种植面临严峻的气候适应性挑战。早期成熟组(MG000)大豆因遗传多样性低,尤其需要精准的基因组预测技术加速育种。尽管基因组最佳线性无偏预测(GBLUP)和机器学习方法已应用于作物育种,但现有模型在解析基因型与环境互作(GxE)效应时存在两大瓶颈:一是传统方法忽略标记间互作效应,二是环境特异性标记筛选体系缺失。比利时与塞尔维亚联合团队通过整合多环境表型数据与机器学习驱动的GWAS,开创性地解决了这些难题。

关键技术方法

研究团队在比利时和塞尔维亚4个环境中对317份大豆种质进行成熟期(R8)、产量(Y)和蛋白质含量(P)表型测定,结合163,926个SNP标记数据。采用线性混合模型(LMM)和贝叶斯GBLUP分解环境特异性BLUP(envBLUP)为主效(bG)与互作效应(bGE),对比随机森林(RF)与XGBoost预测性能。通过k-fold和环境随机交叉验证评估模型,并基于变量重要性(VI)和f因子筛选关键标记。

研究结果

1. 环境特异性BLUP分析

表型数据分解显示:成熟期和蛋白质含量变异主要受主效遗传影响(bG解释30.3%和25.6%),而产量变异更多源于GxE互作(bGE解释24.4%)。塞尔维亚与比利时环境间呈现显著负相关性,揭示基因型表现存在地域特异性。

2. 基因组预测模型比较

拆分建模使互作效应预测能力显著提升:XGBoost在产量预测中r提高0.18,随机森林在蛋白质含量预测中r提高0.12。贝叶斯GBLUP回归斜率最接近1,而LMM表现最差。环境随机交叉验证的预测能力普遍高于k-fold验证,尤其在蛋白质含量预测中差异达0.25。

3. 机器学习-GWAS标记筛选

通过f>3阈值鉴定出22个R8、15个Y和9个P相关主效标记。互作效应分析发现225个R8、93个Y和60个P相关环境特异性标记,其中21%标记在多个环境中共享。

4. 精简模型构建

仅用50个关键标记构建的随机森林模型,其预测能力与全标记模型无显著差异(P>0.05),但计算效率提升300倍。

结论与展望

该研究通过创新性拆分建模策略,首次实现大豆GxE效应组分特异性预测,突破传统GBLUP模型对互作效应解析的局限。提出的ML-GWAS工作流兼具标记筛选与预测功能,其中50标记精简模型为田间育种提供实用工具。Niel Verbrigghe等学者强调,该方法可扩展至抗旱等胁迫响应研究,未来通过纳入更多环境数据将进一步提升预测普适性。研究成果为欧盟"BELIS计划"培育气候适应性大豆品种奠定方法论基础。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号