深度学习预测大麦种质资源地理起源对基因组-环境关联研究的影响

【字体: 时间:2025年08月14日 来源:Theoretical and Applied Genetics 4.2

编辑推荐:

  本研究针对种质资源中地理起源数据缺失的问题,创新性地结合深度学习与基因组-环境关联分析(GEA),通过神经网络模型Locator预测大麦种质的地理坐标,并评估其对GEA检测适应性位点的影响。研究发现,虽然地理预测精度高(R2>0.9),但样本量扩大并未显著提升GEA效能,揭示了当前方法在利用推算数据时的局限性,为作物适应性研究提供了新思路。

  

研究背景与意义

作物驯化过程中的遗传瓶颈导致现代栽培品种适应性基因流失,而种质资源库保存的野生近缘种和传统地方品种蕴含丰富的遗传多样性。然而,约86%的大麦种质缺乏精确地理起源记录,限制了基因组-环境关联分析(Genome-Environment Association, GEA)在挖掘适应性基因中的应用。如何利用不完整的地理数据揭示作物环境适应机制,成为亟待解决的难题。

德国霍恩海姆大学(University of Hohenheim)的研究团队提出GEAplus框架,首次将深度学习地理预测与GEA结合,通过分析全球12,129份大麦种质资源,评估了推算环境数据对检测开花时间基因等适应性位点的影响。相关成果发表于《Theoretical and Applied Genetics》,为种质资源的智能化利用提供了方法论参考。

关键技术方法

研究采用多学科交叉策略:1) 基于GBS(基因分型测序)获取87,036个SNP标记;2) 使用Locator神经网络模型预测缺失地理坐标,并通过WorldClim数据库提取19项生物气候变量;3) 结合REGENIE算法进行个体水平GEA,辅以空间祖先分析(SPA)验证;4) 利用SLiM软件模拟不同群体扩张场景(单/双起源),量化GEAplus的统计效能。

研究结果

地理预测精度与生态合理性

通过Locator模型预测的经纬度坐标在交叉验证中显示高精度(经度R2=0.987,纬度R2=0.921),但部分预测点位于地中海等非耕作区(图S8),凸显模型缺乏生态约束的缺陷。模拟分析进一步显示,对未参与训练的亚群(Type 1样本),预测误差显著增加(表2)。

GEAplus与常规GEA的互补性

基于真实数据的分析发现:常规GEA(N=1,626)成功检测到光周期基因PPD-H1(下游55.6 kb)和春化基因VRN-H1(上游244.3 kb),而GEAplus(N=11,032)仅识别PPD-H1(下游225.7 kb),但新增了CEN基因上游1.17 Mb的关联信号(图5-6)。SPA分析则独立检测到FT5基因上游349 kb的位点(图S5),表明空间等位基因梯度分析可补充GEA的盲区。

样本量扩增的边际效应

SLiM模拟显示:即使完美推算环境数据,GEAplus在群体扩张双起源(2R)场景下仅使个体水平GEA(REGENIE)效能略有提升(图9f),而基于群体的RDA方法无改善。这与Lotterhos等(2015)的理论一致——隔离-距离模型下样本量对GEA影响有限。

结论与展望

该研究证实了深度学习在种质资源地理数据补全中的潜力,但揭示当前GEA方法对推算数据的敏感性不足。未来需开发区域化GEA策略,结合滑动窗口分析以捕捉局部适应信号。研究者建议将生态适宜性约束纳入神经网络训练,并探索个体水平与空间梯度分析的协同效应,为作物抗逆育种提供更精准的基因挖掘工具。

(注:所有结果均基于原文数据,专业术语如PPD-H1(光周期响应基因)、VRN-H1(春化途径基因)等均保留原始命名规范)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号