MeNet:一种用于多环境农艺性状基因组预测的混合效应深度神经网络
《Plant Communications》:MeNet: A mixed-effect deep neural network for multi-environment genomic prediction of agronomic traits
【字体:
大
中
小
】
时间:2025年11月21日
来源:Plant Communications 11.6
编辑推荐:
本研究针对基因组预测中深度学习方法存在性能不稳定、缺乏生物学解释性等问题,提出了一种混合效应深度神经网络(MeNet)。该模型通过双嵌入架构分别模拟遗传背景(随机效应)和基因组变异的非线性累积效应(固定效应),并利用自适应学习动态调整二者贡献。在三大作物(水稻、小麦、玉米)的36项预测任务中,MeNet在34项中表现最优,显著优于11种前沿模型。其预测R2甚至超过了关键性状的加性遗传力理论上限,证明了其捕捉上位性和基因-环境互作的能力。该研究为多环境、资源节约型作物育种提供了强大的新工具。
在作物育种领域,准确预测农艺性状是提高育种效率、选育优良品种的关键。随着高通量基因分型技术的飞速发展,利用全基因组变异信息对大规模群体进行表型预测已成为现代育种的核心技术之一。传统的基因组预测方法,如最佳线性无偏预测(BLUP)及其衍生模型,在过去三十年中发挥了重要作用。这些线性模型擅长捕捉加性遗传效应,但对于复杂的非加性效应,如基因与基因之间的上位性(epistasis)以及基因与环境的互作(G×E),往往力不从心。然而,这些非线性效应在决定许多重要农ronomic性状(如产量、品质)中扮演着至关重要的角色。
为了应对非线性关系的挑战,机器学习方法,如支持向量机(SVM)、随机森林(RF)以及梯度提升模型(如XGBoost、LightGBM)被引入。近年来,深度神经网络(DNN)展现出更强大的非线性建模潜力,例如卷积神经网络(CNN)、长短期记忆网络(LSTM)以及基于Transformer的模型。然而,现有的深度学习方法在基因组预测中的应用仍面临两大瓶颈:其一,在不同农艺性状和环境下性能不稳定;其二,模型通常像一个“黑箱”,缺乏生物学解释性,难以与育种家的实际经验相结合。此外,深度网络通常需要大量样本,而育种实践中可用的表型数据量往往有限。一个能够同时整合遗传背景信息(类似于育种中的优良亲本选配)和基因组变异功能影响(类似于分子标记辅助选择),并能自适应性状遗传复杂度的统一框架,将极大地推动基因组预测的发展。
为此,来自南京农业大学等机构的研究团队在《Plant Communications》上发表了他们的研究成果,提出了MeNet(混合效应深度神经网络)。该模型巧妙地将混合效应模型的统计严谨性与神经网络的非线性建模能力相结合,为多环境下的基因组预测提供了一个强大且可解释的新工具。
研究者们为开展这项研究,主要运用了几项关键技术方法。他们利用了三个公开数据集:包含18,421份水稻材料的18K水稻群体(12个性状,3个环境)、599份小麦材料的产量数据(4个环境)以及8,652份玉米材料的3个性状数据。数据预处理使用PLINK进行质量控制,包括最小等位基因频率(MAF)过滤和连锁不平衡(LD)过滤。MeNet模型的核心是双分支架构:一个分支(RepGeno)通过性状感知的三元组对比学习(trait-aware triplet contrastive learning)来学习表征遗传背景的嵌入(embedding),模拟随机效应;另一个分支(VE)使用基于残差连接的卷积网络来学习基因组变异的非线性累积效应,模拟固定效应。两者通过交叉信息特征融合(Cross-information feature fusion)单元进行整合,并利用自适应学习动态调整贡献权重。模型训练采用AdamW优化器,以平均绝对误差(MAE)为目标函数。为了评估模型,研究者将其与11种代表性方法(包括RF、XGBoost、rrBLUP及多种深度学习模型)进行了全面比较,并利用集成梯度(Integrated Gradients)方法进行模型解释。此外,还通过迁移学习策略评估了模型的跨环境预测能力。
An architecture designed for MeNet
研究人员设计了一个专门用于基因组预测的深度神经网络架构——MeNet。该模型采用双分支结构,一支负责模拟随机效应(遗传背景),另一支负责模拟固定效应(基因组变异的非线性影响)。其中,RepGeno模块通过性状感知的对比学习,生成能够反映表型特异性遗传关联的嵌入,这与线性混合模型中使用的遗传关系矩阵(GRM)不同,它融入了表型信息。变异嵌入(VE)模块则是一个残差增强的卷积网络,用于建模基因组位点的区域依赖性和长程互作。这两个嵌入通过一个融合模块进行对齐和整合,该模块的核心是一个交叉信息特征融合单元,使MeNet能够根据目标性状的遗传架构自适应地学习两种效应的相对贡献。这种设计使MeNet能够直接利用所有基因组变异,而无需像许多深度学习方法那样严重依赖降维,从而具有高度的可扩展性。
Performance of MeNet for multiple agronomic traits
为了评估MeNet的整体性能,研究团队在三大作物(水稻、小麦、玉米)的三个公开数据集上进行了共计36项预测任务。水稻数据集最为全面,包含12个重要农艺性状在三个不同地点的表型数据。结果表明,在所有的比较中,MeNet在34项任务中取得了最高的预测决定系数(R2),在剩余2项中也位列第二,显著且稳定地优于其他11种对比模型(包括传统统计模型、机器学习模型和深度学习模型)。而在其他模型的排名则因性状或环境不同而波动很大,难以确定孰优孰劣。除了R2,在其他数值指标上,如皮尔逊相关系数(PCC)、归一化均方误差(NMSE)等,MeNet也 consistently 表现出最小的误差。即使在训练样本量减半(训练集、验证集、测试集按3:2:5分割)的更具挑战性的设置下,MeNet的预测能力依然出色。这些结果强有力地证明了MeNet在不同物种、环境和性状上具有普遍的优越性、鲁棒性和广泛的适用性。
Robustness of MeNet in predicting nonlinear relationships
稳健地预测非线性关系是深度神经网络的一个标志性特征。研究人员通过遗传力的角度深入探究了MeNet的非线性预测能力。遗传力分为广义遗传力(H2,包含所有遗传效应)和狭义遗传力(h2,仅包含加性效应)。理论上有Visscher界限指出,线性预测模型的R2不应超过性状的加性遗传力h2。在水稻上海数据集中,对于株高(PH,h2=0.791),传统线性模型rrBLUP的R2为0.793,基本达到加性遗传力上限。而MeNet将R2提升至0.817,超出了h2。对于抽穗期(HD,h2=0.702),rrBLUP的R2为0.651,MeNet则提升至0.725,也显著超过了h2。这一结果证明MeNet能够有效捕捉超越加性效应的非线性信息。进一步利用局部加权散点图平滑(LOWESS)对预测值与观测值进行拟合,发现曲线存在明显的弯曲,呈现出不对称的“香蕉形”分布,这表明MeNet能够识别不同数值范围内的非线性基因型-表型关系,凸显了其模拟复杂表型变异的能力。
Adaptive learning on contributions reflects genetic complexity of quantitative traits in MeNet
MeNet的一个关键优势在于其可解释性。研究人员利用集成梯度(IG)方法分析了遗传背景(RepGeno)和基因组变异(VE)对性状预测的贡献。结果显示,不同遗传架构的性状表现出截然不同的权重分布模式。对于如抽穗期(HD)、株高(PH)、秆长(CL)等已知由少数大效应基因控制的性状,VE的权重(0.70-0.90)显著高于RepGeno,表明预测主要依赖于关键基因组变异,这与全基因组关联分析(GWAS)结果一致。相反,对于如穗长(PL)、穗数(PN)、产量(GY)、蛋白含量(GPC)等受大量小效应基因影响的复杂性状,RepGeno的权重则远高于VE。这意味着MeNet更倾向于利用遗传背景信息,因为大量小效应变异会导致与基因组背景指标(如同源一致性)的相关性更高。这种自适应的权重分配反映了性状的遗传复杂性,与育种实践高度吻合:对于大效应基因主导的性状,可通过引入关键变异进行精准改良;对于复杂性状,则通常需要通过优良亲本杂交和持续选择来积累有利的遗传背景。因此,MeNet的权重分布本身就可以作为性状遗传架构的指示器。
The scaling law of genomic variants for prediction
基因组变异(标记)的数量直接影响预测的计算复杂度和性能。研究人员通过改变连锁不平衡(LD)过滤阈值(从0.1到0.5)来系统研究标记数量对MeNet预测能力的影响。结果发现,随着标记数量的增加(LD阈值提高,保留的标记减少),预测能力(R2)和标记解释的表型方差(PVE)均呈现上升趋势,且两者在所有12个性状中都表现出高度正相关(相关系数0.599-0.994)。结构方程模型证实PVE对预测能力有直接的因果效应。进一步分析发现,在标记数量较少时(LD阈值从0.1到0.3),增加标记能显著提升PVE和R2;但当标记数量达到一定水平后(LD阈值从0.3到0.5),提升效果变得非常有限。这表明在样本量足够大的群体中,初期增加标记数量能有效提升预测能力,但一旦PVE接近饱和,其益处将迅速减弱,同时“大P(标记数),小N(样本数)”问题可能增加过拟合风险。
Cross-environment prediction with transfer learning
培育在不同环境下表现稳定的作物品种是育种的重要目标,尤其在气候变化背景下。实践中,育种家通常有一个长期稳定的主站点,但在其他测试中心进行表型鉴定资源昂贵。利用基因组选择(GS)减少测试中心的田间样本量极具吸引力,但这要求预测模型具有良好的跨环境泛化能力。研究人员通过迁移学习评估了MeNet的这种能力。具体而言,他们将在上海环境用80%样本训练好的模型(学习到的遗传关系),直接迁移到海南和杭州环境,并仅使用目标环境10%的样本(5%训练,5%验证)对模型的部分组件进行微调(fine-tuning)。结果显示,这种策略取得了良好效果,平均比基线模型提升了57.07%的增益。这表明MeNet具备强大的跨环境预测能力,为建立社区协作的大型基础模型(foundation model),并通过少量样本微调实现多地点、多年份的精准预测提供了新的应用途径。
综上所述,本研究开发的MeNet模型成功地将混合效应模型的框架与深度学习的非线性优势相结合,在多种作物、性状和环境下实现了卓越且稳定的预测性能。其创新之处在于通过双嵌入和自适应学习,动态平衡了遗传背景和基因组变异的影响,不仅提高了预测精度,还提供了洞察性状遗传复杂性的窗口。MeNet能够捕捉超越加性遗传力的非线性效应,并展示了在数据有限场景下通过迁移学习进行跨环境预测的潜力。尽管计算成本相对较高,但MeNet为基因组预测领域提供了一个功能强大、生物学意义明确的新工具,有望推动多环境、资源节约型的智能育种发展。未来的研究可进一步探索其在解析精确的基因-基因、基因-环境互作网络中的应用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号