基于门控残差变量选择神经网络的基因组多任务预测研究

【字体: 时间:2025年07月08日 来源:BMC Bioinformatics 2.9

编辑推荐:

  本研究针对基因组预测(GWP)中传统线性混合模型计算复杂、机器学习方法整合困难的问题,开发了门控残差变量选择神经网络(GRVSNN)。该模型通过融合基因组标记和家系低秩信息,在火炬松、小鼠和猪数据集上实现了更低的均方误差(MSE)和更高的相关性(r/dCor),同时显著减少特征选择数量。这项发表于《BMC Bioinformatics》的研究为农业育种和精准医学提供了高效可解释的预测工具。

  

在基因组学时代,如何高效整合海量基因组数据和传统家系信息,一直是动植物育种和人类疾病预测的核心挑战。传统线性混合模型虽然能处理这类问题,但面临矩阵求逆计算复杂、难以捕捉非线性关系的局限;而深度学习(DL)方法又普遍存在特征选择困难、模型解释性差的问题。芬兰奥卢大学的研究团队在《BMC Bioinformatics》发表的这项研究,创新性地开发了门控残差变量选择神经网络(GRVSNN),为基因组多任务预测提供了兼具高效性和可解释性的解决方案。

研究团队采用三大关键技术:首先通过特征值分解将家系矩阵A降维为低秩载荷矩阵Lr,与基因组标记M构成联合输入矩阵;其次设计包含ELU激活函数和硬Sigmoid门控的残差块(GR Block),实现局部特征选择;最后通过全局Softmax变量选择层(VS Block)完成重要性加权。模型采用5折交叉验证和贝叶斯优化调参,在火炬松(926个体/4,853 SNPs)、小鼠(1,814个体/10,346 SNPs)和猪(2,314个体/52,843 SNPs)数据集上进行评估。

【模型比较】GRVSNN在火炬松数据集上对性状9/10的预测MSE分别达0.203/0.246,显著优于BayesCπ(0.251/0.277)和LassoNet(0.221/0.247)。距离相关性(dCor)指标显示,GRVSNN对猪性状4的关联强度检测达0.983,远超其他方法。

【小鼠数据】整合家系载荷后,GRVSNN对性状1(BMI)的预测r值从0.691提升至0.712,特征选择数从70降至64个,证明家系信息可增强预测效率。

【猪数据】在5个性状预测中,GRVSNN保持最低MSE(0.131-0.135)和最高r值(0.611-0.725),且特征选择数仅为147-153个,远低于贝叶斯方法的200+个。

【计算效率】采用硬Sigmoid激活的GRVSNN在猪数据上仅需5.7分钟完成训练,比LassoNet快2倍,比贝叶斯方法快3-4倍。

这项研究通过创新性地融合门控机制与变量选择技术,解决了基因组预测中计算效率与模型解释性的平衡难题。其价值体现在三方面:技术上,GR Block和VS Block的设计为DL模型提供了可解释的特征选择框架;应用上,低秩家系载荷的整合策略为资源有限的育种项目提供了可行方案;方法论上,dCor指标的引入为评估非线性遗传关联提供了新视角。尽管在跨物种泛化能力上存在局限,但该框架为农业基因组选择和人类复杂疾病风险预测开辟了新途径。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号