综述:通过基于多组学的预测育种技术加速多年生作物的改良
《The Plant Genome》:Accelerating perennial crop improvement via multi-omics-based predictive breeding
【字体:
大
中
小
】
时间:2025年11月21日
来源:The Plant Genome 3.8
编辑推荐:
多年生作物面临环境挑战和缓慢育种周期的问题,多组学预测方法(整合基因组、表型组及环境互作数据)可加速遗传改良。需解决数据维度高、环境互作用力复杂、训练种群规模受限等挑战,通过跨机构合作与模拟工具优化整合策略。
随着全球气候变化和农业环境的不断变化,多年生作物(Perennial crops)正面临着前所未有的挑战。这些作物因其无需每年重新种植、持续产出以及对环境影响较小(如减少土壤侵蚀)而备受关注。然而,这种再生机制也使它们更容易受到环境压力的影响,进而威胁到其生产可持续性。因此,如何在多年生作物中实现快速而有效的遗传改良成为亟待解决的问题。尽管传统的育种方法仍然是遗传改良的重要手段,但由于其周期长、效率低,难以满足当前快速适应环境变化的需求。近年来,随着技术的进步和数据的丰富,预测育种(Predictive breeding)逐渐成为一种新的研究方向,尤其在多年生作物中展现出巨大的潜力。
预测育种是一种基于整合数据和先进计算工具的育种方法,旨在通过多层数据的融合提升遗传改良的速度和效率。在多年生作物中,预测育种主要依赖于单组学(single-omics)和多组学(multi-omics)方法。单组学方法包括基因组选择(Genomic Selection, GS)和表型选择(Phenomic Selection, PS),它们分别利用基因组数据和高通量表型数据进行遗传预测。相比之下,多组学方法通过整合基因组、表观基因组、转录组、蛋白质组、代谢组以及表型数据,形成一个更全面的系统视角,以捕捉基因组与表型之间的复杂调控网络。
基因组选择是预测育种中最早被应用于多年生作物的方法之一。其核心思想是通过分子标记和机器学习算法预测性状表现,而无需对个体进行表型鉴定。这种方法在多年生作物中仍处于初步应用阶段,其预测精度受限于训练群体(Training Population, TP)的规模、遗传结构以及性状的复杂性。例如,在苹果、葡萄、咖啡和多年生黑麦草等作物中,研究者已经尝试使用GS进行遗传改良,但普遍发现其预测能力受限于TP的大小和性状的遗传力。此外,由于多年生作物的生长周期长、世代间隔大,获取高质量表型数据的成本和时间也远高于一年生作物。因此,扩大TP规模、提高数据质量成为GS在多年生作物中提升预测能力的关键。
表型选择作为一种新兴的预测育种方法,近年来在多年生作物中得到越来越多的关注。PS利用高通量表型技术,如多光谱成像和传感器数据,获取植物的高维表型信息,从而用于遗传预测。PS的一个显著优势在于其成本低廉、非侵入性以及高通量的数据采集能力,使其成为一种具有广阔前景的育种工具。然而,PS的预测能力同样受到多种因素的影响,包括数据采集的时间点、植物的生长阶段、环境条件以及数据与非加性遗传效应之间的相关性。例如,在某些情况下,PS的预测能力可能不如GS,尤其是对于需要精确表型数据的性状。因此,如何优化PS的应用策略,使其在多年生作物中发挥更大作用,成为当前研究的一个重要方向。
多组学预测方法在多年生作物中的应用仍处于起步阶段,但已有初步成果。例如,在葡萄、咖啡、苹果和蓝莓等作物中,研究者尝试将基因组和表型数据进行整合,以提高预测精度。这些研究显示,尽管多组学方法在某些情况下能够显著提升预测能力,但其应用仍面临诸多挑战,如数据的复杂性、多组学数据的整合难度以及模型的可解释性。此外,由于多年生作物的TP规模通常较小,导致模型训练受限,影响了预测的准确性。因此,未来的研究需要关注如何优化数据采集、处理和建模策略,以克服这些瓶颈。
在预测模型的选择上,研究者发现不同模型在不同性状上的表现差异较大。例如,基于线性回归的模型在某些情况下可能不如基于机器学习的模型,尤其是当数据呈现高度非线性和交互作用时。此外,深度学习模型因其强大的非线性建模能力,在某些性状上表现优于传统的线性模型。然而,深度学习模型的计算需求较高,且在实际应用中存在一定的局限性,如对数据质量的依赖和模型的可解释性问题。因此,如何在保证模型性能的同时,提高其计算效率和可解释性,成为多组学预测方法发展的重要方向。
为了提高预测育种的实用性,研究者提出了一系列解决方案,包括跨机构合作、数据共享以及育种模拟工具的应用。跨机构合作能够有效整合不同研究单位的数据资源,从而扩大TP规模,提高预测模型的统计效力。此外,通过使用育种模拟工具,研究者可以构建虚拟的TP并模拟预测模型在不同环境条件下的表现,为实际应用提供指导。例如,一些研究利用模拟数据集评估不同预测模型在多年生作物中的表现,发现某些模型在小规模TP中依然能够保持较高的预测能力。这表明,随着数据生成技术的进步和计算资源的增加,多组学预测方法在多年生作物中的应用前景广阔。
多组学预测方法的另一个重要挑战是数据的高维度和复杂性。不同组学数据来源之间可能存在高度相关性,而如何有效整合这些数据并避免信息丢失是研究的重点。为此,研究者提出了多种数据整合策略,如多阶段分析和元维度分析。多阶段分析通过分步骤整合不同组学数据,以减少计算复杂度,但可能无法全面捕捉多组学之间的交互作用。而元维度分析则能够在一次整合中同时考虑不同组学数据之间的关系,从而提高预测的准确性。然而,这种方法对计算资源的要求较高,需要更先进的算法和模型支持。
此外,多组学预测方法在多年生作物中的应用还需要解决基因型-环境互作(Genotype-by-Environment Interaction, GEI)的问题。GEI是指不同基因型在不同环境下的表现差异,是影响预测精度的重要因素。研究者发现,传统的GEI模型在预测多年生作物的性状时可能不够全面,无法准确捕捉复杂的互作模式。因此,如何构建更精确的GEI模型,以提高预测能力,成为当前研究的一个热点。一些研究尝试将作物生长模型与多组学数据结合,以更全面地模拟植物在不同环境下的表现,从而提升预测的准确性。例如,结合作物生长模型和基因组数据的CGM-WGP方法在某些作物中显示出较高的预测能力,但其在多年生作物中的应用仍需进一步验证。
综上所述,预测育种在多年生作物中的应用仍处于发展阶段,但其潜力巨大。通过整合多组学数据、优化模型设计以及加强跨机构合作,有望显著提升预测能力,从而加速遗传改良进程。然而,实现这一目标仍需克服数据复杂性、TP规模限制以及模型可解释性等挑战。未来的研究应更加注重多组学数据的整合策略、模型的灵活性以及对实际育种需求的适应性,以推动预测育种在多年生作物中的广泛应用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号