利用机器学习技术优化荣昌猪生长性状的基因组育种值预测
《Machine Learning with Applications》:Optimization of genomic breeding value prediction for growth traits in Rongchang pigs through machine learning techniques
【字体:
大
中
小
】
时间:2025年10月10日
来源:Machine Learning with Applications 4.9
编辑推荐:
基因组预测技术在荣昌猪中的优化研究。比较了传统方法(GBLUP、Bayes等)与机器学习模型(KRR、SVR、GBDT等)在3个生长性状的预测性能,采用不同SNP密度数据集。结果表明ML方法整体提升6.6-8.1%,其中KRR在30万SNP密度下表现最优,抵抗过拟合能力显著。分隔符:
在当前的生物技术发展背景下,基因组预测(Genomic Prediction, GP)作为一项重要的育种工具,正在迅速改变动物育种的实践方式。特别是在大规模基因组测序数据日益增多的今天,传统的方法在处理这些高维度数据时面临诸多挑战。因此,科学家们开始探索机器学习(Machine Learning, ML)技术在基因组预测中的应用,以提高预测的准确性和效率。本研究通过使用485头荣昌猪的测序数据和基因组关联分析(Genome-Wide Association Study, GWAS)结果,对六种传统方法和六种机器学习方法在荣昌猪的三种生长性状(背膘厚度、胸背高和胸围)上的预测效果进行了比较,旨在寻找适用于本地猪种的最优预测方法。
### 基因组预测的背景
随着基因组测序技术的快速发展,我们能够获取更详细的遗传信息,这为育种提供了前所未有的机会。然而,传统的基因组预测方法,如基因组最佳线性无偏预测(Genomic Best Linear Unbiased Prediction, GBLUP)和贝叶斯方法,在面对高维度数据时表现出一定的局限性。这些方法通常假设遗传标记效应遵循特定的先验分布,这在某些情况下可能无法准确捕捉复杂的基因-表型相互作用。此外,传统方法在处理大规模数据集时,容易出现过拟合问题,尤其是在样本量较小的情况下。
机器学习方法则因其对高维数据的处理能力而受到广泛关注。与传统方法不同,ML方法能够通过算法框架捕捉复杂的非线性关系,从而在某些情况下表现出更高的预测效率和准确性。尽管ML方法在许多物种和研究中展现出潜力,但其效果也因数据质量、样本结构和性状特征的不同而有所差异。因此,本研究旨在通过荣昌猪的数据,探索机器学习方法在基因组预测中的应用,并评估其在不同数据维度下的表现。
### 研究方法与数据处理
本研究的数据来源于荣昌猪群体,其中包括500头个体的基因组信息和表型数据。这些数据经过预处理,包括基因型质量控制、基因组关联分析(GWAS)以及基因型矩阵(G-matrix)的构建。在基因型质量控制过程中,移除了位置信息缺失或位于性染色体上的标记,并筛选出符合特定质量标准的SNP(单核苷酸多态性)。最终保留了22,686个高质量的SNP。
为了进一步提升预测的准确性,研究者还采用了GWAS结果进行加权处理。具体而言,根据GWAS分析结果,筛选出与性状显著相关的SNP,并将其用于构建加权的G矩阵。这一过程有助于突出那些对表型具有较大影响的遗传标记,从而提高模型的预测能力。在这一基础上,研究者还对不同SNP密度的数据集进行了分析,以评估数据维度对预测性能的影响。
研究使用了多种机器学习方法,包括支持向量回归(SVR)、随机森林(Random Forest, RF)、梯度提升决策树(Gradient Boosting Decision Tree, GBDT)、轻量级梯度提升树(Light Gradient Boosting Machine, LightGBM)、K近邻回归(Kernel Ridge Regression, KRR)和Adaboost。为了优化这些模型的参数,研究者采用贝叶斯优化方法,并进行了300次迭代以找到最佳的超参数设置。此外,为了评估模型的预测准确性,研究者采用了五折交叉验证和独立测试两种方式。
### 研究结果
在五折交叉验证和独立测试中,机器学习方法在大多数情况下表现优于传统方法。例如,在背膘厚度(BF)性状的预测中,机器学习方法的预测准确率比传统方法提高了6.6–8.1 %。其中,KRR方法在SNP密度为300,000时表现出极强的抗过拟合能力,这使得它在预测性能上具有显著优势。同时,GBDT方法在计算效率方面也表现出色,显示出其在基因组预测中的应用潜力。
研究还发现,加权数据的引入显著提升了机器学习方法的预测性能。对于某些性状,如胸围(GC),加权数据的引入使预测准确率提高了33.5 %。此外,加权数据的使用还增强了模型的稳定性,特别是在面对高SNP密度数据时。KRR方法在加权数据下的表现尤为突出,其预测准确率在所有性状中均保持了较高的稳定性。
在独立测试中,KRR方法的预测准确率下降幅度最小,显示出其对过拟合的抵抗能力最强。此外,研究者还通过SHAP(SHapley Additive exPlanations)方法对模型的特征重要性进行了分析,发现某些SNP标记对预测结果具有显著影响。这些标记往往与脂肪沉积和生长相关,这为理解基因组对性状的影响提供了新的视角。
### 机器学习方法的比较
在本研究中,不同机器学习方法的表现存在差异。KRR方法在预测准确率和计算效率方面均表现出色,特别是在高SNP密度情况下。相比之下,SVR方法虽然在某些性状中表现优异,但在面对复杂数据时可能更容易过拟合。GBDT方法在预测准确率上表现出色,但在某些情况下其性能不如KRR。Adaboost方法在加权数据下的表现尤为突出,特别是在GC性状的预测中。
此外,研究还发现,不同性状对机器学习方法的响应存在差异。例如,对于背膘厚度(BF)性状,机器学习方法的预测准确率显著高于传统方法;而对于胸背高(LTH)性状,机器学习方法的预测准确率提升幅度相对较小。这可能与性状的遗传结构和表型变异有关。此外,研究者还发现,不同SNP密度对预测性能的影响显著,随着SNP密度的增加,预测准确率先上升后下降,这表明存在一个最佳的SNP密度范围。
### 讨论与分析
荣昌猪作为中国本土的一个重要猪种,其生长性状的预测对于育种实践具有重要意义。研究结果表明,机器学习方法在预测这些性状时具有显著优势,尤其是在处理高密度基因组数据时。然而,研究也指出了一些挑战,例如在高SNP密度下,模型可能因过多的标记信息而变得不稳定,从而影响预测性能。此外,研究者还发现,某些机器学习方法在处理加权数据时表现更优,这表明加权策略在提高预测准确率方面具有重要价值。
研究还强调了样本量对模型性能的影响。尽管机器学习方法在处理大规模数据时具有一定的优势,但在样本量较小的情况下,其预测性能可能受到影响。因此,在实际应用中,需要合理选择样本规模和数据质量,以确保模型的稳定性和准确性。此外,研究还指出,GWAS结果对基因组预测的准确性具有重要影响,特别是在加权数据的构建过程中。
总的来说,本研究展示了机器学习方法在基因组预测中的巨大潜力,同时也指出了其在实际应用中需要注意的几个关键问题。未来的研究可以进一步优化这些方法,以提高其在不同物种和性状中的适用性。此外,研究还为基因组育种提供了新的思路,特别是在如何利用高密度基因组数据进行有效预测方面。
### 结论
本研究通过对荣昌猪的基因组预测方法进行比较,发现机器学习方法在大多数情况下表现优于传统方法。特别是在高SNP密度数据下,KRR方法表现出最佳的预测性能和抗过拟合能力,显示出其在基因组预测中的巨大潜力。此外,研究还表明,加权数据的引入可以显著提升预测准确性,这为未来的基因组育种实践提供了新的思路。
研究还强调了样本量和数据质量对模型性能的影响,指出在样本量较小的情况下,机器学习方法可能面临过拟合的风险。因此,在实际应用中,需要合理选择样本规模和数据处理策略,以确保模型的稳定性和准确性。此外,研究还为未来的研究提供了方向,特别是在如何优化模型结构、提升预测性能和减少过拟合风险方面。
通过本研究,科学家们不仅验证了机器学习方法在基因组预测中的有效性,还为未来的基因组育种实践提供了理论支持和实际应用的指导。随着技术的不断进步,机器学习方法有望在更多物种和性状中得到应用,为育种实践带来更大的变革。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号