影响表型预测的因素:以一个大型高粱回交嵌套关联作图群体为例

《The Plant Phenome Journal》:Factors influencing phenomic prediction: A case study on a large sorghum back cross nested association mapping population

【字体: 时间:2025年11月21日 来源:The Plant Phenome Journal CS5

编辑推荐:

  基因组预测和表型预测在应对气候变化的高粱育种中的应用与比较。通过大规模BCNAM种群(2498个BC1F3:5家系)的NIRS光谱数据(1154个波长),研究表型预测(PP)的多个影响因素,包括预处理方法、统计模型、训练集大小、种群结构和波长选择。结果表明,PP在复杂性状预测中表现优于GP,且受种群结构影响较小,训练集需求更低,但存在性状依赖性。NIRS数据在不同环境下的可迁移性验证,随机选择少量波长(10-30个)即可达到与全波长相当的性能,提示光谱信息冗余度高且潜在模型优化空间大

  植物育种在应对气候变化和支撑粮食与饲料价值链方面扮演着至关重要的角色。随着育种效率的持续提升,基因组预测(GP)已成为一个关键的技术手段,而近年来,表型预测(PP)作为一种具有潜力的互补方法也引起了广泛关注,有望进一步提高育种效率。然而,影响PP性能的因素尚未完全明确。因此,本研究针对一个包含2498个BC1F3:5家族的大型多亲本高粱群体(涉及29个杂交组合,具有显著的群体结构),探讨了光谱预处理、预测方法、群体结构、训练集规模、近红外光谱(NIRS)获取环境以及波长选择对PP性能的影响。研究使用了51,545个单核苷酸多态性(SNP)标记和1154个NIRS特征,结果显示PP的预测能力(PA)可以与GP相媲美,并且PP对群体结构的敏感性较低,能够以更小的训练集规模达到其最大预测能力,但其表现依赖于具体的表型特征。此外,研究还表明NIRS可以在参考环境中采集,用于在其他环境中对基因型进行预测,同时可以随机选择部分波长进行预测。研究还发现,光谱预处理和统计方法对PA的影响并不一致。本研究确认了PP作为一种重要的表型预测方法,值得在育种方案中进一步优化应用。未来的主要挑战在于更好地理解光谱中所含的信息,并区分其遗传成分与环境相关成分,以优化PP在育种计划中的使用。

PP技术近年来逐渐被应用于多种作物中,包括小麦、玉米、大豆、黑麦、黑麦草、绿豆、油菜、马铃薯、辣椒和水稻等。此外,PP技术也被应用于一些多年生作物,如苜蓿、甘蔗、咖啡、葡萄和一些森林树种,如白杨、火炬松和桉树。在一些研究中,PP技术甚至被用于奶山羊的育种。这些研究表明,PP在不同作物中的表现各异,但总体而言,其预测能力在许多物种中可以与GP相当。然而,PP的性能也表现出一定的依赖性,某些表型特征在PP中的预测能力可能优于GP,而另一些特征则相反。这可能与表型特征的遗传结构、表型的复杂程度以及环境因素有关。

PP的核心思想是利用植物组织或冠层的近红外光谱波长作为预测变量,而不是传统的分子标记。与GP相比,PP具有成本低、高通量、非破坏性和易于实施的优势,尤其是在已有红外光谱数据的育种项目中。PP技术通常分为三种形式:基于植物组织或器官的光谱测量、基于冠层的光谱测量(如使用无人机搭载多光谱或高光谱相机)以及基于植被指数(VI)的测量,其中VI是通过光谱预处理计算得出的。这些方法在不同的应用场景中表现出不同的性能,而本研究主要关注基于植物组织的PP方法。

在本研究中,我们利用了一个大型多亲本高粱BCNAM群体进行分析。该群体由三个精英轮回亲本与24个供体亲本杂交生成,再通过回交获得BC1家族,最终经过自交获得BC1F4基因型。所有数据均来源于BC1F3:4代。研究特别关注了NIRS数据的采集环境和预处理方法对PP性能的影响。研究中使用的NIRS数据来源于两个特定的群体:Grinkan(GR)和Kenin-Keni(KK),它们分别代表了不同遗传背景的亲本组合。研究结果表明,PP在预测某些表型特征时,其性能可以与GP相当,但在其他特征上表现较弱。这可能与这些特征的遗传复杂性有关,例如,对于由多个数量性状位点(QTL)决定的复杂性状(如产量),PP的预测能力优于GP,而对于由少数QTL控制的孟德尔性状,PP则可能表现不佳。这种差异可能源于PP能够同时捕捉多个基因的影响,而GP依赖于分子标记的单一性。

研究还探讨了训练集规模对PP性能的影响。结果显示,PP在较小的训练集规模下即可达到较高的预测能力,而GP则需要更大的训练集规模。这种现象可能与PP能够更有效地利用光谱数据中的信息有关。PP中的每个波长可能包含多个基因的信息,因此较少的波长可能已足够预测表型特征。此外,PP对群体结构的敏感性较低,这使其在处理具有明显群体结构的作物群体时更具优势。相比之下,GP的预测能力更容易受到群体结构的影响,因此在处理具有高群体结构的作物群体时,PP可能是一种更稳健的选择。

NIRS数据的采集环境对PP性能也有显著影响。当训练集和验证集的光谱数据来源于不同环境时,PP的预测能力通常会下降。这可能是因为NIRS数据不仅包含遗传信息,还包含环境信息,例如生长阶段、组织类型和环境条件等。因此,光谱数据中的环境信息可能与表型特征之间存在一定的相关性,从而影响PP的预测准确性。然而,研究还表明,通过在参考环境中采集光谱数据,可以用于预测其他环境中的基因型表现,这为PP在跨环境预测中的应用提供了可能性。

此外,研究还探讨了波长选择对PP性能的影响。通过使用LASSO和PLSR模型,可以识别出对预测贡献较大的波长,并且这些波长的选择能够显著减少所需的光谱数量,而不会对预测能力产生明显影响。随机选择部分波长也能达到与使用全部波长相似的预测能力,这表明NIRS数据可能具有一定的冗余性,即使不进行精细的波长选择,也能实现较好的预测效果。然而,波长选择的具体方法对不同表型特征的影响并不一致,某些情况下,LASSO选择的波长表现优于随机选择,而在其他情况下,随机选择的波长则更为有效。这可能与波长之间的相关性有关,例如,相邻波长之间可能存在高度共线性,从而使得部分波长能够代表其他波长的信息。

研究还比较了不同统计方法对PP性能的影响。结果显示,GBLUP和PLSR模型在大多数情况下表现优于RIDGE和LASSO模型,但某些情况下,RIDGE和LASSO模型也能达到较高的预测能力。这一发现表明,统计方法对PP性能的影响并不统一,且在不同表型特征之间存在差异。因此,选择合适的统计方法对于优化PP的预测性能至关重要。

总体而言,PP作为一种新兴的育种预测方法,其潜力正在被逐步揭示。研究结果表明,PP在某些情况下可以达到与GP相当的预测能力,同时在处理具有显著群体结构的数据时表现更稳健。此外,PP能够以较小的训练集规模达到较高的预测能力,这为资源有限的育种项目提供了新的思路。然而,PP的性能仍受到表型特征的遗传复杂性、训练集规模、光谱预处理方法和采集环境等因素的影响。因此,为了充分发挥PP的潜力,还需要进一步研究其背后的遗传机制,并探索如何在不同的育种场景中优化其应用。

未来的研究方向应包括更深入地理解NIRS数据中所包含的遗传和环境信息,以及如何有效区分这些信息以提高预测准确性。此外,还需要进一步研究不同波长选择方法对PP性能的影响,探索更高效的波长筛选策略。同时,统计方法的选择也需要根据具体表型特征进行优化,以实现最佳的预测效果。最后,PP在跨环境预测中的应用仍需进一步验证,特别是在资源有限的育种项目中,如何利用参考环境的NIRS数据进行预测是一个值得深入探讨的问题。通过这些研究,PP有望成为一种更加高效、经济且适用于不同作物的育种预测工具。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号