猪育种基因组选择:机器学习算法的比较分析,为育种精准导航

【字体: 时间:2025年03月11日 来源:Genetics Selection Evolution 3.6

编辑推荐:

  研究人员对比多种机器学习(ML)方法在猪基因组预测中的性能,发现 GBLUP、Stacking 等方法表现优异,为猪育种提供参考。

  在猪的育种领域,基因组选择(Genomic Selection,GS)是一项极为关键的技术,它就像精准导航仪,利用全基因组高密度单核苷酸多态性(Single Nucleotide Polymorphism,SNP)标记来估计个体的基因组估计育种值(Genomic Estimated Breeding Values,GEBVs)。与传统依赖系谱信息的育种值估计方法相比,GS 能更好地解释世代间的遗传变异,提高育种值预测的准确性,缩短世代间隔,加速遗传进展,在低遗传力性状的预测上也表现出色。
然而,现有的 GS 方法存在不少问题。传统的基于最佳线性无偏预测(Best Linear Unbiased Prediction,BLUP)的方法,如基因组最佳线性无偏预测(Genomic Best Linear Unbiased Prediction,GBLUP),虽然相比 BLUP 有更高的准确性,但它和贝叶斯方法一样,都只能考虑加性效应,忽略了基因间的相互作用和上位效应,这可能会影响基因组预测的准确性。而且,随着 SNP 标记数量的增加,对存储空间的需求也大幅提升,导致基因组预测的效率变低。此外,贝叶斯方法虽然准确性较高,但耗时太长,在实际生产中应用困难。同时,现有研究尚未明确哪种机器学习(Machine Learning,ML)方法最适合大多数猪基因组预测,这使得在进行基因组预测时,难以从众多 ML 方法中选择合适的方法。

为了解决这些问题,中国农业大学的研究人员开展了一项关于 “猪育种中基因组选择:机器学习算法的比较分析” 的研究。研究成果发表在《Genetics Selection Evolution》上。

研究人员采用了多种关键技术方法。首先,使用了五个不同的猪种群数据集,涵盖生长和繁殖性状,这些数据集来自之前的研究,具有广泛的代表性。其次,运用了 11 种 ML 方法和 GBLUP 进行对比分析,包括核岭回归(Kernel Ridge Regression,KRR)、支持向量回归(Support Vector Regression,SVR)、弹性网络(Elastic Net,ENET)等。在实验过程中,通过随机划分数据集,将 20% 的数据作为测试集,80% 作为训练集,训练集再进一步划分用于训练和验证,这个过程重复 10 次。同时,采用了 LR 统计等方法评估模型性能,以全面比较各方法的优劣。

研究结果如下:

  1. T1-T5 性状的预测结果:大多数 ML 方法在 T1-T5 性状上的表现优于传统的 GBLUP,预测准确性有一定提升。其中,Stacking 模型表现最佳,平均排名第 2,KRR-rbf 紧随其后,平均排名 2.8。而 LASSO、Adaboost 和 ENET 的表现相对较差。通过 LR 统计分析发现,Stacking、RFR、MLP 和 SVR 对训练集规模的敏感性较小,具有较好的稳健性和泛化能力;SVR、KRR-cos 和 KRR-rbf 在预测表型时的分散性较好;KRR 的不同内核模型和 SVR 在部分数据集和整体数据集上的预测一致性较强;KRR-sig、KRR-cos 和 SVR 受训练集大小的影响较小,MLP 对训练集大小最为敏感。
  2. 生长性状的预测结果:在生长性状的预测中,一些 ML 方法如不同内核的 KRR 和 SVR,与 GBLUP 效果相当。GBLUP 表现最佳,平均排名 2.25,SVR 次之,平均排名 3.00,Stacking 和 CNN 也表现良好。
  3. 繁殖性状的预测结果:在繁殖性状的预测上,KRR-cos、KRR-sig 和 SVR 在总产仔数(Total Number of Born Piglets,TNB)性状上相关性较高,比 GBLUP 的平均相关性提高了 1.6%。在活产仔数(Number of Born Alive Piglets,NBA)和初生窝重(Litter Weight at Birth,LW)性状上,KRR 和 SVR 表现优于 GBLUP,SVR 表现最佳,平均排名 3.00,KRR-cos 和 GBLUP 紧随其后。

综合研究结果和讨论,GBLUP 和 ML 方法各有优势。GBLUP 在两个性状上排名最高,SVR 在四个生长性状上排名最高,Stacking 在三个性状上排名最高,KRR 在两个性状上排名最高。LR 统计分析表明,Stacking、SVR 和 KRR 较为稳定。因此,当应用 ML 方法进行猪的表型值预测时,推荐使用这三种方法。该研究为猪育种领域的研究人员在选择 ML 算法进行表型值预测时,提供了极具价值的参考,有助于推动猪育种技术的发展,提高育种效率和准确性,为培育更优质的猪种奠定了理论基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号