CNNCaps-DBP:基于注意力增强卷积与蛋白质语言模型的DNA结合蛋白精准预测新方法

【字体: 时间:2025年10月30日 来源:Neural Networks 6.3

编辑推荐:

  本文提出创新深度学习框架CNNCaps-DBP,通过融合预训练蛋白质语言模型ESMC与注意力增强卷积模块,突破传统DNA结合蛋白(DBP)预测中手工特征依赖与信息丢失的瓶颈。模型结合胶囊网络(CapsNet)与多层感知机(MLP),在多个独立数据集上显著优于现有方法(SOTA),并通过案例研究验证其生物学解释性,为疾病机制研究提供新工具。

  
亮点
  • 采用面向蛋白质的预训练语言模型对序列进行编码,充分利用其表征能力自动捕捉序列中嵌入的结构和进化信息。
  • 改进的注意力增强卷积模块解决了传统卷积网络主要关注局部特征的局限性,通过引入注意力机制捕捉嵌入之间更深层次的关系。
  • 在独立测试数据集上,CNNCaps-DBP在多项评估指标中均展现出优于当前最先进方法(SOTA)模型的功能。此外,其预测能力在额外数据集上得到验证。
  • 为增强模型可解释性,我们通过可视化与DBP相关的注意力权重进行了两个案例研究,为模型的决策过程提供了见解。
CNNCaps-DBP框架
CNNCaps-DBP通过一系列步骤构建,包括数据预处理、ESMC特征编码、模型训练和最终预测,如图1所示。在初始阶段,采用ESMC嵌入特征编码技术。然后将这些特征输入基于增强卷积(augmented Conv)、胶囊网络(CapsNet)和MLP的深度学习模型,利用训练集和独立测试集构建最终预测模型。具体而言,增强卷积结合了...
不同手工特征提取和预训练模型的性能
为评估不同特征在蛋白质序列表征中的效用,我们采用了三种手工特征提取方法(BE、AAindex和BLOSUM62)、一种使用DSSP提取的二级结构特征(SecStr)以及四种预训练模型(ESM2-150m、ESM2-650m、ESMC-300m、ESMC-600m)来提供序列嵌入。我们还尝试将ESMC-600m的特征与手工提取的特征及二级结构特征拼接,旨在探究是否...
结论
表征DBP对于理解基本的蛋白质-DNA结合动力学及其相关的功能后果至关重要。在本研究中,我们开发了一种全新的深度学习预测器CNNCaps-DBP,旨在提高DBP预测的准确性。在CNNCaps-DBP中,我们使用ESMC预训练模型从蛋白质序列中提取特征,然后将这些特征输入一个由两层注意力增强卷积...
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号