
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于门控残差变量选择神经网络的基因组多任务预测研究
【字体: 大 中 小 】 时间:2025年07月08日 来源:BMC Bioinformatics 2.9
编辑推荐:
本研究针对基因组预测(GWP)中传统线性混合模型计算复杂、机器学习方法整合困难的问题,开发了门控残差变量选择神经网络(GRVSNN)。该模型通过融合基因组标记和家系低秩信息,在火炬松、小鼠和猪数据集上实现了更低的均方误差(MSE)和更高的相关性(r/dCor),同时显著减少特征选择数量。这项发表于《BMC Bioinformatics》的研究为农业育种和精准医学提供了高效可解释的预测工具。
在基因组学时代,如何高效整合海量基因组数据和传统家系信息,一直是动植物育种和人类疾病预测的核心挑战。传统线性混合模型虽然能处理这类问题,但面临矩阵求逆计算复杂、难以捕捉非线性关系的局限;而深度学习(DL)方法又普遍存在特征选择困难、模型解释性差的问题。芬兰奥卢大学的研究团队在《BMC Bioinformatics》发表的这项研究,创新性地开发了门控残差变量选择神经网络(GRVSNN),为基因组多任务预测提供了兼具高效性和可解释性的解决方案。
研究团队采用三大关键技术:首先通过特征值分解将家系矩阵A降维为低秩载荷矩阵Lr,与基因组标记M构成联合输入矩阵;其次设计包含ELU激活函数和硬Sigmoid门控的残差块(GR Block),实现局部特征选择;最后通过全局Softmax变量选择层(VS Block)完成重要性加权。模型采用5折交叉验证和贝叶斯优化调参,在火炬松(926个体/4,853 SNPs)、小鼠(1,814个体/10,346 SNPs)和猪(2,314个体/52,843 SNPs)数据集上进行评估。
【模型比较】GRVSNN在火炬松数据集上对性状9/10的预测MSE分别达0.203/0.246,显著优于BayesCπ(0.251/0.277)和LassoNet(0.221/0.247)。距离相关性(dCor)指标显示,GRVSNN对猪性状4的关联强度检测达0.983,远超其他方法。
【小鼠数据】整合家系载荷后,GRVSNN对性状1(BMI)的预测r值从0.691提升至0.712,特征选择数从70降至64个,证明家系信息可增强预测效率。
【猪数据】在5个性状预测中,GRVSNN保持最低MSE(0.131-0.135)和最高r值(0.611-0.725),且特征选择数仅为147-153个,远低于贝叶斯方法的200+个。
【计算效率】采用硬Sigmoid激活的GRVSNN在猪数据上仅需5.7分钟完成训练,比LassoNet快2倍,比贝叶斯方法快3-4倍。
这项研究通过创新性地融合门控机制与变量选择技术,解决了基因组预测中计算效率与模型解释性的平衡难题。其价值体现在三方面:技术上,GR Block和VS Block的设计为DL模型提供了可解释的特征选择框架;应用上,低秩家系载荷的整合策略为资源有限的育种项目提供了可行方案;方法论上,dCor指标的引入为评估非线性遗传关联提供了新视角。尽管在跨物种泛化能力上存在局限,但该框架为农业基因组选择和人类复杂疾病风险预测开辟了新途径。
生物通微信公众号
知名企业招聘