基于环境组学的菜豆多环境试验预测优化:机器学习空间插值与GIS-FA整合策略

《Scientific Reports》:Enhancing enviromics based predictions in common bean multi-environment trials

【字体: 时间:2025年10月31日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对菜豆(Phaseolus vulgaris L.)在多环境试验(MET)中基因型与环境互作(G×E)预测精度不足的问题,通过整合因子分析(FA)模型、环境组学(enviromics)和地理信息系统(GIS),提出改进的GIS-FA方法。研究采用随机森林空间插值(RFSI)优化环境数据插值,并排除非农业区域的空间采样,使eBLUPs预测准确度从0.46提升至0.53(提升15.2%),为圣保罗州不同生态区提供品种推荐图谱。该方法为现代植物育种提供了环境导向的精准决策工具。

  
在巴西的农业版图中,菜豆(Phaseolus vulgaris L.)占据着举足轻重的地位,特别是"Carioca"和"Black"两种类型,占据了总产量的约90%和国内消费的78%。这种作物的种植遍布巴西全境,展现出对多样化土壤气候条件和季节变化的显著适应性,形成了雨季、旱季和冬季三个主要种植季节。然而,这种广泛的地理和季节分布也带来了一个关键挑战:基因型与环境之间的复杂互作(G×E)常常导致品种在不同地区的表现不稳定,给农民的选择和育种家的决策带来了巨大困难。
传统的多环境试验(MET)虽然能够评估基因型在不同环境下的表现,但往往将环境视为"黑箱",缺乏对环境因子的精细刻画。随着环境组学(enviromics)的兴起,研究人员开始将详细的环境数据整合到预测模型中,为理解G×E互作提供了新的视角。由Araújo等人提出的GIS-FA方法,通过结合因子分析(FA)模型、偏最小二乘(PLS)回归和地理信息系统(GIS),能够预测未测试环境中的基因型表现,并生成品种推荐的空间分布图。
尽管如此,原有的GIS-FA方法在环境数据插值和空间采样方面仍存在局限。本研究旨在改进这一方法,通过引入随机森林空间插值(RFSI)技术提高环境数据插值的准确性,并优化空间采样策略,排除非农业区域,从而提升环境特征的表征质量。研究人员将改进后的GIS-FA框架应用于巴西圣保罗州23个环境下进行的菜豆试验,评估了59个来自"Carioca"和"Black"市场等级的基因型。
研究团队采用了几个关键技术方法:首先,通过残差最大似然法(REML)和最佳线性无偏预测(BLUP)进行单环境和多环境试验分析;其次,运用因子分析(FA)模型降低G×E互作建模的维度;然后,整合因子分析选择工具(FAST)评估基因型的整体表现(OP)和稳定性(RMSD);最后,通过随机森林空间插值(RFSI)处理环境特征数据,并利用偏最小二乘(PLS)回归预测未测试环境的因子载荷。
单环境与多环境试验分析结果
单环境分析显示,实验变异系数(CVa)范围从6.31%(Moc18R)到24.9%(Cam21D),广义遗传力(H2)从0.36(Vot20W)到0.97(Moc20D)。所有环境均通过似然比检验显示出显著的基因型效应。在多环境试验分析中,FA4模型表现出最佳拟合效果,被选为后续预测的基础模型。
遗传相关性分析
环境间的遗传相关性范围从-0.59(Tat20R vs Mon19R)到0.995(Vot19W vs Cam18R),平均相关性为0.35。其中87.35%的估计值为正相关。Moc19D、Cam18W、Vot19W和Cam18R环境与其他环境表现出最高相似性,而Tat20R、Moc20D、Cap19R和Cap19D被确定为最具差异性的环境。
FAST选择结果
通过FAST方法,研究人员确定了"Carioca"和"Black"菜豆类型中前15%最高产且稳定的基因型。对于"Carioca"类型,选择了G16、G12、G39、G32、G45和G31;对于"Black"类型,选择了G19、G30和G28。其中G39、G45、G32、G31和G19比对照品种表现出更高的稳定性,但所有选择的基因型在绝对表现上均未超过对照品种。
改进的GIS-FA预测精度
改进的GIS-FA方法在留一法交叉验证(LOOCV)下达到了0.53的准确度和698.57的均方根误差(RMSE),相比原始GIS-FA实现方法和在当前数据集上的表现均有提升。这一改进代表了15.2%的准确度提升,从0.46提高到0.53。
模型
预测
预测准确度
菜豆
大豆
GIS-FA
载荷
0.38
0.34
GIS-FA*
载荷
0.43
0.35
GIS-FA
eBLUPs
0.46
0.60
GIS-FA*
eBLUPs
0.53
0.63
空间分布与品种推荐
通过"谁在哪里胜出"地图分析,研究人员确定了在不同环境中表现最佳的基因型。对于"Carioca"基因型,六个基因型最适合目标环境群体(TPE)中的特定环境,但只有四个(IAC 2051、G16、G42和G02)覆盖了大片地理区域。对于"Black"基因型,获胜基因型之间的变异性较小,IAC Veloz和G28在大部分TPE中占主导地位。
适应性区域分析
通过适应性区域分析,研究人员对基因型的eBLUPs进行分类,并生成个体地图以评估它们在TPE中的特定表现。这些专题图仅针对FAST和"谁在哪里胜出"地图识别出的最有前景的基因型构建。结果显示,"Carioca"基因型IAC 2051和G16在TPE的大片区域表现出高生产力,而稳定性较差的基因型则表现出不同的空间分布模式。
成对比较分析
通过比较它们在TPE中的预测eBLUPs,研究人员绘制了两个基因型之间的地理获胜分布图。对于"Carioca"类型,将最有前景的基因型与商业品种IAC 2051进行比较,发现G02和G16在TPE的西北地区优于对照,而G42在东南地区超过对照。对于"Black"基因型,与商业品种IAC Veloz的比较显示,该品种在TPE的南部和东南部地区始终优于所有竞争对手。
环境差异性分析
环境差异性地图揭示了MET条件在圣保罗州范围内的代表性存在明显的空间梯度。中部和西北部地区显示出较低的差异性值,表明与实验环境高度相似,因此外推预测的置信度更高。相比之下,东南部和沿海地区显示出较高的差异性,反映了MET数据集中代表性较差的环境条件。
本研究通过整合FA模型和FAST工具,评估了常见菜豆基因型在三种传统种植季节的不同气候条件下的表现。同时,通过改进GIS-FA方法,增强了空间采样和插值步骤,构建了适应性区域、成对比较和"谁在哪里胜出"分析的专题地图,促进了对基因型表现和稳定性的空间明确理解。
FA模型已被证明是建模MET中G×E互作的强大且简洁的方法,能有效捕捉基础协方差结构,在常规育种计划中实现更精确的选择决策。通过将FA建模与通过PLS回归的环境协变量相结合,GIS-FA方法展示了其在改进未测试环境中基因型预测方面的潜力,性能优于类似的预测方法。
GIS-FA方法与FAST的整合通过允许在未测试位置进行预测,显著增强了对稳定性和表现指标的解释。尽管两种方法都识别出了优良基因型,但在选定基因型的地理表现和稳定性方面出现了明显差异。FAST独立于地理分布和环境信息,突出了最高产和最稳定的基因型。相比之下,GIS-FA专题地图说明了空间变异,揭示了基因型在不同环境中的特异性适应性。
尽管本研究中的MET地点地理分布有限,但通过在多年度和三个不同种植季节评估基因型引入的时间变异,很好地代表了多样化环境条件下的基因型响应。此外,环境变量提取的改进和RFSI的实施增强了对环境条件的表征,解决了原始数据中空间分辨率差异相关的挑战。
虽然GIS-FA方法在LOOCV中达到了0.53的准确度,但进一步的改进可以增强其预测性能。最近的研究表明,对环境特征进行建模可以提高预测模型的简洁性和预测准确度。此外,尽管计算要求高,但纳入高分辨率时空环境数据可以通过在小区甚至单株水平估计环境特征来优化基因型表现预测。
未来的研究应侧重于开发基于TPE内不同区域空间适宜性的基因组辅助杂交策略,可能加速特定适应品种的选育。同时,季节预测模型可以使得针对特定种植季节的基因型推荐成为可能。将这些预测模型扩展到评估未来气候情景下的基因型响应,将进一步为气候韧性育种计划提供宝贵工具,应对气候变化带来的日益严峻的挑战。
该研究发表在《Scientific Reports》期刊上,为现代植物育种中的环境知情预测提供了重要方法论进步,通过数据驱动的选择策略优化了品种推荐,为应对复杂环境挑战的作物改良研究提供了新思路。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号