
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于变分自编码器的多任务基因组预测模型VMGP在植物多表型、多环境和跨群体基因组选择中的统一应用研究
【字体: 大 中 小 】 时间:2025年06月25日 来源:Artificial Intelligence in Agriculture 8.2
编辑推荐:
为解决高维基因组数据与有限表型样本间的"维度灾难"问题,Xiangyu Zhao团队开发了基于变分自编码器(VAE)的多任务基因组预测模型VMGP。该研究整合自监督基因组压缩重建与多任务预测框架,在小麦、水稻和玉米公共数据集上验证了其在多表型预测、多环境适应和跨群体选择中的卓越性能,预测准确率最高提升82%,为植物育种提供了稳定可靠的深度学习解决方案。
随着全球人口预计在2050年达到97亿,粮食安全面临前所未有的挑战。传统植物育种方法在应对土地退化、水资源短缺和气候变化等复杂问题时显得力不从心。基因组选择(GS)技术通过利用全基因组变异进行预测,无需预先了解性状相关基因,为育种领域带来了革命性突破。然而,基因组数据的高维度特性与相对有限的表型样本量形成了尖锐矛盾,导致传统统计方法、机器学习乃至深度学习模型都容易出现过拟合和预测性能下降的问题,这种现象被形象地称为"维度灾难"(CoD)。
针对这一关键科学问题,中国农业科学院的研究团队创新性地开发了基于变分自编码器(VAE)的多任务基因组预测模型VMGP。这项发表在《Artificial Intelligence in Agriculture》的研究,通过整合自监督基因组压缩重建与多任务预测框架,成功构建了一个统一的预测系统。研究人员利用小麦、水稻和玉米的公共数据集,系统验证了模型在多表型预测、多环境适应和跨群体选择等多个维度的卓越性能,为植物基因组选择提供了全新的深度学习解决方案。
研究采用了四项核心技术方法:(1)构建包含编码器、采样器、解码器和预测器的四模块VAE架构;(2)设计联合损失函数平衡基因组重建与表型预测任务;(3)应用SHAP(Shapley Additive exPlanations)方法进行SNP重要性分析;(4)采用5折交叉验证评估模型性能。实验数据涵盖水稻299份、小麦599份、小麦2000份和玉米4505份样本的基因组与表型数据。
【多表型预测】模型在小麦2000数据集上对千粒重(TGW)等6个性状的预测准确率平均提升4.0%-147.8%,在低遗传力的水稻产量(YLD)预测中优势尤为显著,准确率提升达82%。研究发现VAE框架通过提取基因组的低维表征,能有效捕捉多性状间的遗传关联。
【多环境预测】基于小麦599数据集的环境适应性预测显示,VMGP平均准确率比rrBLUP提高7.5%,比深度学习方法DNNGP高出15.7%。特别值得注意的是,多环境联合训练使预测误差降低4.3%,证实了模型对环境因子的稳健建模能力。
【跨群体预测】在包含20个玉米亚群的4505份材料中,VMGP克服了群体间遗传分化(Fst=0.230-0.345)的障碍,平均预测准确率比rrBLUP提高7.7%。对发育性状DTP和株高(PH)的预测改进尤为突出,分别达到14.7%和12.8%。
【模型解释与SNP预选】通过SHAP分析发现53.4%的高权重SNP与QTL定位结果一致。仅使用2.3%的预选SNP(2500个)即可达到全基因组预测效果,而使用9.4%的SNP(10000个)时预测准确率反超全基因组11.3%,为低成本基因分型提供了可行方案。
这项研究的突破性意义体现在三个方面:首先,VMGP首次将VAE框架成功应用于植物基因组选择,通过自监督学习有效缓解了维度灾难问题;其次,多任务学习机制创新性地整合了多性状、多环境和跨群体的生物信息,在保持参数统一的前提下实现了最优或接近最优的预测性能;最后,模型解释技术与SNP预选策略的结合,不仅提高了预测精度,还大幅降低了基因分型成本。研究团队即将公开的MaizeGEP数据集,将为进一步研究基因-环境互作提供重要资源。
该研究的实用价值尤为突出,其开源的统一架构和稳定参数设置,使得不具备深度学习专业知识的育种工作者也能轻松应用。特别是在应对气候变化带来的育种挑战时,VMGP展现出的跨环境、跨群体预测能力,为快速选育适应性新品种提供了有力工具。未来通过整合转录组、蛋白组等多组学数据,以及精细化的环境因子编码,这一框架有望发展成为更全面的智能育种系统,推动植物育种进入"人工智能驱动"的新时代。
生物通微信公众号
知名企业招聘