基于注意力机制的WAGA模型揭示鱼类淡海水适应关键基因的深度学习新方法

《BMC Genomics》:Identification of key genes for fish adaptation to freshwater and seawater based on attention mechanism

【字体: 时间:2025年10月01日 来源:BMC Genomics 3.7

编辑推荐:

  本研究针对传统分子方法难以揭示环境胁迫下基因间复杂调控关系的问题,开发了整合自然语言处理与自注意力机制的加权注意力基因分析(WAGA)方法。通过对128种辐鳍鱼类的基因组分析,成功识别出与感官功能、渗透调节和生长发育相关的关键基因,为鱼类生态适应进化机制提供了新见解,并为水产育种提供了新工具。

  
在漫长的演化历程中,鱼类从海洋走向淡水,形成了丰富多样的物种分化。这种适应不同盐度环境的背后,隐藏着怎样的遗传密码?传统研究方法往往难以捕捉基因间复杂的调控网络,而日益增长的基因组数据更需要高效的分析工具。正是在这样的背景下,钱松平等研究人员在《BMC Genomics》上发表了创新性研究,开发了基于注意力机制的深度学习新方法。
鱼类作为脊椎动物中种类最丰富的类群,其演化历史可追溯至5亿年前的寒武纪。随着地质变迁和气候变化,部分鱼类被隔离在特定的水生生态系统中,逐渐形成了淡水与海水物种的分化。为适应不同盐度环境,鱼类进化出各异的生理机制,如鳃屏障结构、离子转运系统等。然而,传统分子生物学方法在解析这些复杂性状的遗传基础时面临挑战,特别是难以揭示基因间的非线性调控关系。
为解决这一难题,研究团队提出了加权注意力基因分析(WAGA)框架。该方法创新性地将自然语言处理技术应用于蛋白质编码基因的特征表示,结合深度学习和自注意力机制,实现了从全基因组层面识别与环境适应相关的重要基因。
研究首先从NCBI数据库获取233种辐鳍鱼类的基因组数据,经过严格质量筛选后保留153个基因组完整性超过90%的物种。通过OrthoFinder进行直系同源基因聚类分析,获得14,206个代表性基因家族。根据FishBase记录的栖息地信息,最终确定128个具有明确环境标签的物种(66种淡水鱼、62种海水鱼)作为分析对象。
关键技术方法包括:使用BPE(字节对编码)对蛋白质序列进行分词处理,通过Word2Vec模型生成词向量表示;构建包含双向门控循环单元(BiGRU)和多头自注意力机制(MHSA)的深度学习网络;采用基于同源基因簇的随机采样策略进行数据增强;通过注意力权重识别关键基因,并进行GO和KEGG富集分析。
数据预处理结果
BUSCO评估显示53个物种的基因组平均完整性达94.9%。通过设置适当的频率阈值,构建了包含8,417个词汇的词典。数据增强后生成了2,048个训练样本,有效平衡了淡水与海水鱼类的数据量。
WAGA模型结果
模型在测试集上表现出色,WAGA1模型的准确率、召回率、精确率和F1分数均接近99%。在128个真实物种上的分类任务中,所有评估指标均超过90%,AUC值接近1,表明模型具有优异的判别能力。
超参数敏感性分析
通过系统评估学习率、优化器类型、网络层数等超参数,确定了最佳模型配置。结果表明模型在特定参数组合下表现最优,且对超参数变化具有一定的鲁棒性。
模型比较结果
与支持向量机(SVM)、逻辑回归、GRU、LSTM和BiLSTM等基线模型相比,WAGA1在所有评估指标上均显著优于其他方法,证明了其在该任务中的优越性。
富集分析结果
GO分析显示关键基因显著富集在膜结构、信号转导、视觉感知等生物学过程。KEGG分析揭示了神经活性配体-受体相互作用、细胞黏附分子、紧密连接等重要通路。这些基因在感官功能、渗透调节、免疫应答等生理过程中发挥关键作用。
研究鉴定出多个与鱼类环境适应相关的关键基因家族。cldn基因家族参与紧密连接形成,在渗透调节中起核心作用;slc6a基因家族负责神经递质转运,调节离子平衡;taar和v2r基因家族介导化学信号感知;cry基因家族与视觉适应相关。此外,还发现了litaf、csrp等新型候选基因,可能参与免疫应答和肌肉结构适应。
值得注意的是,研究在关键基因中鉴定出多个与心血管系统发育相关的基因,如tmem88a和her4,这些基因可能通过调节循环系统功能来适应不同水环境。同时,hamp基因在铁离子稳态中的富集提示其在应对病原感染中的潜在作用。
尽管WAGA模型表现出色,研究仍存在一定局限性。22种广盐性鱼类因缺乏明确环境标签未被纳入训练,这可能影响模型对生态可塑性物种的泛化能力。未来研究将整合多盐度适应物种,结合基因编辑等技术进一步验证关键基因的功能。
该研究首次将深度学习注意力机制应用于鱼类环境适应基因挖掘,为理解水生生物适应性进化提供了新视角。所开发的WAGA方法不仅适用于鱼类基因组学研究,还可推广至其他生物类群的适应性进化分析,为水产育种和物种保护提供理论依据和技术支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号