
-
生物通官微
陪你抓住生命科技
跳动的脉搏
可解释性集成机器学习框架NTLS在基因组选择中的应用:提升猪经济性状预测精度与生物机制解析
【字体: 大 中 小 】 时间:2025年06月29日 来源:Smart Agricultural Technology 6.3
编辑推荐:
为解决机器学习(ML)在基因组选择(GS)中模型碎片化、可解释性差等问题,研究人员开发了集成NuSVR、TPE、LightGBM和SHAP算法的NTLS框架。该研究在约克夏猪群体中实现了DAYS、BF和NBA性状预测精度较GBLUP提升10.8%、11.9%和28.4%,首次引入ν-SVR模型并验证SHAP值在SNP筛选中的优势,为育种决策提供高效可解释的分析工具。
在动物育种领域,基因组选择(Genomic Selection, GS)技术通过全基因组标记预测个体育种值,显著加速了遗传进展。然而,传统方法如基因组最佳线性无偏预测(GBLUP)难以捕捉非加性遗传效应,而新兴的机器学习(Machine Learning, ML)算法又面临"黑箱"困境、参数优化复杂等挑战。尤其在高维SNP数据分析中,如何平衡预测精度与生物可解释性,成为制约ML在育种中广泛应用的关键瓶颈。
中国农业科学院北京畜牧兽医研究所的研究团队在《Smart Agricultural Technology》发表的研究中,构建了名为NTLS(NuSVR+TPE+LightGBM+SHAP)的创新框架。该研究通过整合支持向量回归变体ν-SVR、贝叶斯优化器TPE、梯度提升树LightGBM和可解释性工具SHAP,在约克夏猪3个重要经济性状(达100kg日龄DAYS、背膘厚BF和产仔数NBA)的预测中,较GBLUP模型分别提升10.8%、11.9%和28.4%的准确度。
关键技术包括:1) 使用50K SNP芯片对2,457头约克夏猪进行基因型检测;2) 采用树结构Parzen估计器(TPE)进行超参数优化;3) 比较PCA、KPCA等四种降维方法;4) 基于LightGBM-TreeSHAP(LS)模型筛选特征SNP;5) 通过KEGG和GWAS验证候选基因生物学意义。
3.1 原始基因型数据下不同模型预测精度比较
NuSVR-TPE(NT)模型表现最优,DAYS、BF和NBA预测精度分别达0.7811、0.7783和0.4674。ν-SVR通过控制支持向量比例参数ν∈(0,1],将支持向量占比从ε-SVR的90%降至60%,显著提升计算效率。深度学习方法MLP和DNNGP表现最差,反映小样本数据下传统ML算法的优势。
3.2 不同降维方法对NT模型的影响
主成分分析(PCA)保留75%方差时达到最佳平衡,DAYS性状在320个主成分(解释72.5%方差)时获得0.7963的最高精度,较原始数据提升2%。非线性方法如UMAP和PHATE表现不佳,可能与参数敏感性有关。
3.3 特征选择方法的性能对比
LightGBM-SHAP(LS)算法筛选的SNP在GWAS验证中显示生物学合理性,如NBA性状顶级SNP"8_56076247"与GWAS显著位点一致。使用全部显著SNP时,NTLS框架对DAYS的预测精度达0.7836,较GBLUP提升5.1%。
3.4 NTLS框架的可解释性
通过KernelSHAP实现全局与局部解释:1) 蜜蜂群图显示SNP"8_56076247"基因型为0时SHAP值>0(促进表型),基因型1/2时SHAP值<0(抑制表型);2) 瀑布图可视化单个个体的预测贡献路径。
3.5 LS模型鉴定的候选基因
KEGG富集发现DAYS相关基因显著富集于MAPK、PI3K-AKT等调控生长的通路,如FGF14基因与肌肉发育相关。BF性状中CAMKMT基因可能通过钙信号影响脂肪沉积,而NBA性状顶级SNP定位的ENG基因对胚胎血管生成至关重要。
该研究的突破性在于:首次将ν-SVR引入GS领域,其通过调节ν参数平衡模型复杂度与泛化能力;建立的NTLS框架实现从SNP筛选到模型解释的全流程整合,其中SHAP值比传统Gain值更能反映SNP的边际贡献;提出保留75%PCA方差的经验阈值,为大数据分析提供效率优化方案。
讨论部分指出,虽然当前深度学习在GS中表现欠佳,但NTLS的模块化设计允许替换基础模型(如用KRR替代NuSVR),为不同物种提供灵活解决方案。未来需在更大群体中验证LS算法筛选SNP的稳定性,并探索非线性降维方法的参数优化空间。这项研究为育种领域提供了兼具预测力与可解释性的分析范式,其方法论价值可能延伸至医学基因组学研究。
生物通微信公众号
知名企业招聘