编辑推荐:
这篇综述聚焦于植物育种中的基因组预测(GP)。介绍了其基本原理,探讨统计机器学习(ML)方法和软件如何提升基因组选择(GS)效率。还分析了非高斯分布性状的模型、深度学习(DL)模型的应用,以及相关软件和数据管理工具,为植物育种研究提供全面参考。
预测性植物育种:基因组创新的新前沿
在植物育种领域,基因组工具的应用开启了农业的新时代。低成本、高通量的基因分型技术让育种项目能够产生大量基因组数据,全基因组关联研究(GWAS)和基因组预测(GP)等方法在育种组织中广泛应用。多年来积累的基因型和表型数据,以及高通量表型分析方法的发展,使信息技术在育种中的地位愈发重要,如何将数据转化为知识和育种决策成为关键。
传统育种决策依赖表型观察,评估时间长,且常用的线性回归模型在处理复杂遗传性状时存在局限性。GP,也叫基因组选择(GS),借助统计机器学习(ML)方法,利用基因组信息预测个体性状表现,能加速育种进程。深度学习(DL)作为 ML 的子集,在 GP 中各有优势和适用场景,选择哪种方法取决于数据特性和预测目标。
随着预测性育种发展,软件工具的重要性日益凸显。多种软件如基因组关联和预测集成工具(GAPIT)、性状分析关联进化和连锁工具(TASSEL)等,满足了研究人员和育种者的不同需求,推动了基因组研究发展。
基因组预测模型的一般原理:探索 GBLUP、rrBLUP 和 LASSO
基因型和表型之间的关系复杂,受数百万个遗传变异影响。统计 ML 方法为解析这种复杂性提供了系统的数据驱动途径。其基于数学模型,通过 “学习” 确定参数,以描述训练数据中预测变量和响应变量的关系。
基因组预测中常用的线性模型假设基因组标记对表型观察有累加作用。以公式y=μ+Mβ+?为例,y是表型记录向量,μ是总体均值向量,M是标记矩阵,β是等位基因效应向量,?是误差向量。由于基因型数量n通常小于预测变量数量p,需进行正则化以避免过拟合,获得唯一解。
岭回归 BLUP(rrBLUP)和基因组最佳线性无偏预测(GBLUP)通过对β的平方效应大小进行惩罚来实现正则化,二者基本相同,只是惩罚权重定义略有差异。最小绝对收缩和选择算子(LASSO)则惩罚β的绝对值之和,倾向于使许多标记效应估计为零。贝叶斯方法使用不同的先验分布。在实际应用中,rrBLUP/GBLUP 通常是探索 GP 潜力的首选方法。
育种数据不断积累,其维度也在增加。环境协变量、高通量表型数据和代谢组学数据等都可纳入预测模型。此外,特征选择和数据增强等策略能提高基因组预测的准确性。
非高斯性状在植物育种基因组预测中的重要性
除了常见的正态分布性状(如产量和高度),非高斯性状(如有序数据、泊松分布数据和计数数据)在植物育种中也至关重要,它们常与关键育种目标相关,如抗病性、开花时间和每荚种子数等。
非高斯性状给育种带来挑战,传统线性模型假设的正态性在这些性状中不成立,可能导致预测偏差和选择准确性降低。虽然可以通过变换数据近似正态分布,但这种方法存在缺陷。专门的模型能更好地处理非高斯性状,如贝叶斯逻辑有序回归(BLOR)和贝叶斯阈值基因组最佳线性无偏预测(TGBLUP)可用于有序数据,泊松回归模型和负二项模型适用于计数数据,泊松对数正态模型能更好地处理数据的过分散性。
贝叶斯正则化神经网络(BRNN)能处理复杂数据集的非线性关系和相互作用,在保持性状原始尺度和分布特征的同时提供可靠预测。在处理计数数据时,若存在过分散性,负二项分布比泊松分布更合适。对于零膨胀和过分散的计数数据,零膨胀泊松随机森林模型能更准确地预测,如在预测谷物产量方面表现出色。
深度学习模型在基因组预测中的应用
深度学习(DL)在人工智能发展中发挥着核心作用,近年来在植物育种领域也备受关注。DL 模型由多层人工神经元组成,能自动提取数据中的复杂模式。其在基因组预测中的优势在于灵活性高,能自动识别复杂模式和特征,如基因型 - 环境相互作用。但 DL 方法也存在不足,如需要大量数据、计算成本高、参数生物学解释困难以及存在过拟合风险等。
在植物基因组学研究中,DL 可用于分析大规模基因组数据集,预测复杂植物性状。研究发现,特征选择对神经网络训练很关键,集成算法性能更可靠,且非线性算法性能因性状而异。DL 还可用于分析 DNA 或 RNA 序列、预测基因表达水平和识别基因调控网络等,有望推动全基因组测序数据在 GP 中的应用。
在植物育种中,DL 用于预测谷物产量、抗病性和抗逆性等复杂性状。尽管 DL 在应用中存在问题,但与传统方法相比,它能更有效地捕捉非线性模式,整合多源数据。研究表明,在排除基因型 - 环境相互作用(G×E)时,DL 模型的预测准确性优于传统的 GBLUP 模型。此外,新开发的基于多层层次结构的深度神经网络(DNNGP)在处理多组学数据时表现出色,在预测准确性和计算时间上具有优势。
基因组预测的软件工具
在植物育种和基因组学研究中,多种软件工具推动了基因组预测(GP)的发展。早期,de los Campos 等人开发的 R 包为基因组预测奠定基础,随后 Pérez 等人的贝叶斯线性回归(BLR)R 包,以及 Endelman 的 rrBLUP R 包,分别为多数据类型分析和岭回归、线性混合模型提供了便利。
Pérez 和 de los Campos 将 BLR 扩展为贝叶斯广义线性回归(BGLR)包,功能更强大,支持多种贝叶斯回归模型、变量选择和收缩方法,可处理连续和分类响应性状,还能用于评估标记效应与环境的相互作用。Pérez - Rodríguez 和 de los Campos 进一步扩展 BGLR 包以拟合多性状模型,增加了模型的灵活性。
MegaLMM 包用于拟合多性状 GP 模型,能处理大规模表型数据或多环境试验数据。lme4GS 包针对遗传分析中线性混合模型(LMM)的不足进行改进,可定义个体或群体间的相关性。sommer 和 rTASSEL 包也在拟合 LMM 方面发挥重要作用,rTASSEL 还能直接处理变异调用格式(VCF)文件,加速 SNP 质量控制等流程。
GAPIT 包广泛应用于 GWAS 和 GP 分析,不断更新迭代,增加了多种模型和功能。BWGS 包涵盖了 GS 应用的多个步骤,支持多种模型训练和交叉验证。IBCF MTME 算法和相关 R 包用于处理多性状多环境数据。此外,还有用于实现贝叶斯广义核回归方法、稀疏核方法的软件包,以及用于整合多组学数据的 CHiDO 工具等。
在植物育种过程中,亲本选择和杂交决策至关重要。IPLGP 包通过多性状选择确定优良亲本,MPS 包利用贝叶斯优化算法解决多性状选择难题,PopVar 包则帮助预测杂交后代的遗传指标,为育种决策提供支持。
先进的数据管理:环境分型和图形单倍型
实际单倍型图(PHG)利用图泛基因组从稀疏基因分型数据中推断高密度 SNP 和单倍型,使 GP 更经济高效,在高粱、小麦和木薯等物种中应用效果良好。EnvRtype R 包将环境数据与基因组学相结合,为 GP 提供了遥感、环境分析和模型增强等功能,未来还将引入无监督环境分型和遗传算法优化。
环境 - 表型关联(EPAs)等先进方法利用历史环境趋势建模,优化位点选择和环境预测,将基因组、环境和经验关系整合到统一的 G×E 核中进行预测建模。
结论
本综述阐述了基因组预测(GP)的原理,探讨了统计机器学习(ML)方法对 GP 效率的提升作用,分析了不同类型性状预测的统计 ML 工具的优缺点,重点介绍了深度学习(DL)模型在基因组选择中的应用及局限,回顾了相关软件和数据管理工具。未来,在非高斯性状建模、贝叶斯模型优化、深度学习应用拓展等方面仍有许多研究工作需要开展,以进一步推动植物育种领域的发展。