基于模因算法的深度神经网络架构自动优化在基因组预测中的应用研究

【字体: 时间:2025年07月25日 来源:Briefings in Bioinformatics 6.8

编辑推荐:

  本研究针对传统基因组预测(GP)方法在复杂性状非线性特征提取中的局限性,创新性地提出MDNN框架,通过模因算法(MA)实现神经网络架构自动搜索(NAS),集成跳跃连接和卷积块注意力模块(CBAM)提升特征提取能力。实验表明,MDNN在小麦和番茄数据集上相比DNNGP模型平均Pearson相关系数(PCC)最高提升36.49%,为育种科学提供了高效自动化预测工具。

  

在基因组选择(GS)领域,传统线性模型如GBLUP和RR-BLUP虽能处理简单性状,却难以捕捉复杂性状的非线性特征。随着高通量测序技术的发展,海量基因组数据对预测模型提出了更高要求。尽管深度学习(DL)技术如DNNGP和GPformer已展现出优势,但其网络架构依赖人工设计,存在适配性差、计算成本高等痛点。

针对这一挑战,华南农业大学数学与信息学院的研究团队在《Briefings in Bioinformatics》发表创新成果。研究团队开发了MDNN框架,通过模因算法(MA)驱动的神经架构搜索(NAS),实现了网络结构的自动化优化。该系统在小麦599数据集上较DNNGP模型PCC提升36.49%,在番茄332数据集的多组学分析中同样表现优异。

关键技术包括:1) 基于主成分分析(PCA)对小麦599、小麦2000和番茄332数据集进行降维;2) 设计含CBAM和跳跃连接的自定义神经节点;3) 采用树结构解码算法降低架构解码复杂度;4) 通过模因算法全局-局部协同搜索最优架构。

网络架构设计
研究创新性地构建了可动态调整的神经节点模块,通过公式y=F(x)+x实现跳跃连接,有效缓解梯度消失问题。如图3所示,特征先经CBAM加权,再通过CNN层提取,最终与原始特征融合输出。

架构优化方法
如图1所示,MDNN将架构编码为字符串细胞,通过MA进行迭代优化。算法1展示了全局搜索(轮盘赌选择)与局部搜索的协同机制,最终生成4个最优架构的集成模型(图7)。

实验结果
如图8-10所示,MDNN在六项小麦性状预测中平均PCC达0.53,显著优于GBLUP(提升352.15%)和LightGBM(提升50.23%)。在番茄可溶性固形物(SSC)预测中,对SNP数据的PCC提升达148.89%。

该研究突破了传统DL模型依赖专家经验的局限,首次将MA引入基因组预测领域。创新的树结构解码方法将计算复杂度从O(n2)降至O(n),而CBAM模块使模型能自适应关注关键SNP位点。尽管存在架构冗余的局限,但为动植物育种提供了自动化预测新范式,未来可通过引入去重算法进一步优化。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号