机器学习驱动的基因组预测框架提升养殖金鳟生长性状选育效率

《BMC Bioinformatics》:Machine learning for genomic prediction of growth traits in aquaculture: a case study of the Australasian snapper (Chrysophrys auratus)

【字体: 时间:2025年11月19日 来源:BMC Bioinformatics 3.3

编辑推荐:

  本研究针对水产养殖中基因组预测面临的高维数据和缺失值挑战,开发了整合领域知识的机器学习框架。研究人员通过域知识K近邻填补法(DK-KNN)实现98.33%的填补精度,系统评估特征选择与分类器组合发现Chi2-DWD方法预测准确率达60%,与传统GBLUP方法相当但无需基因组关系矩阵。该研究为水产育种提供了可解释的机器学习解决方案,筛选出的SNP标记经GWAS验证与生长性状显著相关。

  
在水产养殖业追求可持续发展的道路上,如何快速选育出生长性能优良的品种一直是科研人员关注的焦点。金鳟(Chrysophrys auratus)作为新西兰正在开发的新型养殖鱼种,其育种计划的成功很大程度上依赖于准确的基因组预测技术。传统的育种方法如基因组最佳线性无偏预测(GBLUP)虽然广泛应用,但主要关注加性遗传效应,可能忽略重要的非加性效应,且需要完整的基因组关系矩阵,这在新兴水产养殖物种中往往难以满足。
更为棘手的是,基因组数据本身存在的高维度、缺失值等问题给预测模型带来了巨大挑战。水产养殖群体常常违反哈迪-温伯格平衡假设,而常用的填补方法如IMPUTE2和Beagle需要成熟的参考面板,这对于金鳟等新兴养殖物种来说很难获得。面对这些困境,机器学习技术展现出独特优势,其灵活性和捕捉复杂非线性关系的能力为基因组预测提供了新的解决方案。
在这项发表于《BMC Bioinformatics》的研究中,Chen等人开发了一个全面的机器学习框架,专门用于评估填补方法、基因组预测模型,并识别与金鳟生长性状相关的单核苷酸多态性(SNP)。研究团队基于新西兰植物与食品研究所的育种计划数据,对1,101尾F3代金鳟的18,485个SNP标记和生长记录进行了系统分析。
研究人员采用模块化框架设计,包含数据预处理和机器学习预测两个主要阶段。创新性地开发了基于领域知识的填补方法(DK-KNN),利用连锁不平衡概念,通过SNP之间的等位基因频率相似性和相关性阈值来交叉填补缺失值。在模拟测试中,该方法达到了98.33%的填补精度,显著优于传统方法。
关键技术方法包括:基于连锁不平衡的域知识K近邻填补法(DK-KNN);五种分类算法(SVM、DWD、RF、NB、LR)与四种特征选择方法(Chi2、MI、CMIM、Relief)的系统比较;基因组最佳线性无偏预测(GBLUP)作为基准对照;基因组关联分析(GWAS)验证筛选出的SNP标记生物学意义。研究样本来自新西兰植物与食品研究所的育种计划,包含1,101尾金鳟的基因型和生长表型数据。
数据探索与预处理
研究团队首先对数据质量进行了严格把控,剔除超过15,000个缺失SNP标记的个体以及缺失率超过50%的SNP标记。通过分析子代在不同亲本类别(C10、C11和野生亲本WB)中的生长率分布,发现野生亲本后代表现出更高的生长率,但这被归因于早期发育阶段更严格的大小分级管理策略差异。为避免将管理差异误判为遗传差异,研究采用亲本类别特异性中位数作为分类阈值,将生长率高于相应中位数的个体标记为快速生长(FAST),低于的标记为慢速生长(SLOW),最终获得558个SLOW样本和543个FAST样本的平衡数据集。
填补方法比较
研究人员评估了三种填补方法:最频繁值(MF)、标准K近邻(KNN)和域知识K近邻(DK-KNN)。模拟测试结果显示,DK-KNN方法以98.33%的精度显著优于其他方法。DK-KNN采用两阶段策略:首先利用SNP在染色体上的邻近关系和连锁不平衡原理进行交叉填补,然后对剩余缺失值使用标准KNN方法。这种方法不仅提高了填补精度,还保持了SNP数据的生物学合理性。
工作流程性能比较
研究团队比较了两种工作流程:直接特征选择(NoDK Pre-filtering)和先进行域知识预过滤再进行特征选择(DK Pre-filtering)。结果表明,在所有分类器和特征选择方法组合中,Chi2特征选择与距离加权判别(DWD)分类器的组合表现最佳,准确率达到60%,马修斯相关系数(MCC)为0.203。这一结果与传统的GBLUP方法(准确率60.3%)相当,但机器学习方法不需要构建基因组关系矩阵,且能提供特征选择功能。
0.05)放在中间,将与许多其他组合有显著差异的组合(低p值<0.05)放在边缘'>
统计检验显示,Chi2-DWD组合的性能与其他所有组合存在显著差异(p<0.05)。值得注意的是,域知识预过滤虽然有效降低了特征维度,但并未显著提高预测精度,表明其主要用于去除冗余特征而非提升模型性能。
与GBLUP的比较
GBLUP模型在测试集上获得60.4%的准确率,而最佳机器学习组合(Chi2-DWD)达到60.0%的准确率,两者无显著差异(p=0.51)。这一等价性验证了机器学习方法的有效性,同时提供了特征选择和SNP发现的能力。需要指出的是,GBLUP使用了从完整数据集计算的基因组关系矩阵,可能存在数据泄漏问题,而机器学习方法严格在训练集上构建模型。
重要特征分析
通过分析三种特征选择方法(Chi2、CMIM、Relief)共同识别的重要SNP,研究团队在100次计数阈值下确定了23个与生长性状密切相关的SNP标记。这些标记分布在16条染色体上,其中10号染色体包含最多生长相关SNP(4个)。进一步分析发现,这些SNP中有4个位于FAST或SLOW生长GWAS的前1000个SNP中,三个ML SNP位于先前鉴定的生长数量性状位点(QTL)附近(小于0.4 Mbp)。
GWAS与生物学分析
GWAS分析确定了5个与生长性状显著相关的SNP。对22个机器学习筛选出的生长相关SNP进行功能注释,共识别出87种效应,全部被归类为修饰性影响。最常见的效应类型是非编码转录本和内含子变异(24.14%)。基因本体富集分析发现一个显著项,涉及两个基因(ACTN1和MYH77b)参与肌动蛋白丝结合。此外,根据ZFIN数据库的功能描述和表达模式,这些基因还涉及DNA相互作用、线粒体功能以及神经相关功能等多个生物学过程。
研究结论表明,整合领域知识的机器学习框架能有效处理金鳟基因组数据中的缺失值和高维挑战。DK-KNN填补方法在模拟测试中达到98.33%的高精度,显著优于传统方法。在特征选择与分类器组合中,Chi2-DWD以60%的预测准确率成为最佳组合,性能与GBLUP相当但无需基因组关系矩阵。域知识预过滤能有效降低特征维度而不影响模型性能。筛选出的SNP特征经生物学分析证实与生长性状相关,具有生物学意义。
这项研究的创新之处在于将领域知识系统整合到机器学习框架中,既解决了实际应用中的技术难题,又提供了可解释的生物学见解。研究建立的标准化模块接口设计使框架具有良好的扩展性和适应性,可为其他水产养殖物种的基因组选择提供参考。研究成果不仅加速了金鳟育种进程,也为水产养殖业的精准育种提供了新的技术路线。
机器学习框架的成功应用证明,即使在没有完整系谱信息的情况下,也能通过SNP数据有效预测生长性能,这特别适合新兴养殖物种的育种需求。随着基因组数据的不断积累和机器学习算法的持续优化,这种整合领域知识的方法有望在水产育种中发挥越来越重要的作用,为实现可持续水产养殖提供技术支撑。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号