ProAttUnet:基于深度学习的蛋白质二级结构预测新突破

【字体: 时间:2025年05月07日 来源:Computational Biology and Chemistry 2.6

编辑推荐:

  蛋白质二级结构预测是生物信息学关键问题。研究人员引入 ProAttUnet 模型,融合 ESM2 模型与双路径 U - Net 框架。该模型在五个测试集上超越基准模型,提升显著,为蛋白质二级结构预测提供新方法。

  在生命科学的微观世界里,蛋白质如同神秘的 “小精灵”,它们由 20 种不同的氨基酸串联成链,这些氨基酸通过各种奇妙的组合方式,塑造出千变万化的蛋白质结构。蛋白质的三维结构决定了其功能,然而从一维的氨基酸序列直接预测三维结构困难重重,因此预测蛋白质的二级结构成为关键的中间步骤。蛋白质二级结构由 DSSP 算法(Dictionary of Secondary Structure of Proteins,基于蛋白质三维坐标文件中的氢键确定)分为 8 种类型(DSSP8) ,又可进一步归为 3 类(DSSP3)。
传统预测蛋白质二级结构的方法,常借助 PSI - BLAST、HHblits 等工具获取序列间的远程进化信息,将位置特异性评分矩阵(Position - Specific Scoring Matrices,PSSM)作为模型输入,也有研究尝试用优化算法、深度条件随机字段(DCRF)和经验势能函数预测三维结构。但这些传统方法在面对孤儿序列或同源序列稀缺的情况时,往往 “束手无策”。于是,开发基于单序列的预测模型成为解决蛋白质二级结构预测难题的 “圣杯”。

在此背景下,为攻克蛋白质二级结构预测的难关,来自多个研究机构(作者单位信息未明确给出)的研究人员踏上了探索之旅。他们开展了一项关于蛋白质二级结构预测的研究,提出了 ProAttUnet 模型,旨在通过深度学习的手段,提升基于单序列的蛋白质预测模型性能。最终研究结果显示,ProAttUnet 模型表现卓越,在五个测试集(SPOT - 2016、SPOT - 2016 - HQ、SPOT - 2018、SPOT - 2018 - HQ 和 TEST2018)上,相较于基准模型 SPOT - 1D - Single,在 ss3 预测中分别提高了 1.6%、3.5%、1.0%、4.6% 和 7.2%,在 ss8 预测中分别提高了 5.5%、7.8%、4.1%、8.1% 和 10.1%。这一成果意义重大,为蛋白质二级结构预测领域开辟了新的道路,有助于更深入地理解蛋白质的结构与功能关系,在生物信息学、药物研发等众多相关领域都具有广阔的应用前景。该研究成果发表在《Computational Biology and Chemistry》杂志上。

研究人员开展研究时用到的主要关键技术方法如下:
首先,使用 ProteinNet 数据集(这是蛋白质研究的基线数据集)训练模型。其次,在模型构建方面,整合了最先进的通用蛋白质语言模型 ESM2,以此获取蛋白质序列的残差嵌入和接触图信息;采用独特的双路径 U - Net 框架进行有效的特征融合,并融入交叉注意力机制,帮助模型捕捉更全面的上下文信息;同时,依据蛋白质序列的特点,在模型的编码器和解码器组件中均加入 GCU_SE 模块。

下面介绍研究结果:

  • 数据集方面:选用 ProteinNet 作为训练模型的数据集,原始的 ProteinNet 数据集在 2016 年包含 50,914 个 PDB 蛋白质条目,经过 95% 的截断率处理后,剩余 39,120 个条目。训练好的模型在 SPOT - 2016、SPOT - 2016 - HQ、SPOT - 2018、SPOT - 2018 - HQ 和 TEST2018 这几个数据集上进行评估,以便与基准模型 SPOT - 1D - Single 进行更准确的对比。
  • 方法比较方面:在 3 - 状态(ss3)和 8 - 状态(ss8)的预测场景下,ProAttUnet 模型在所有测试集上的表现均优于其他基于单序列的模型。这种优势得益于类似 SPOT - 1D(profile)的同源建模方法,其中 profile 有助于识别目标蛋白质与已知结构模板之间的序列异同,进而更准确地将模板结构数据映射到目标蛋白质上。
  • 讨论方面:研究提出的 ProAttUnet 模型,利用了最先进的预训练蛋白质语言模型 ESM2 获取序列嵌入和接触图信息,这赋予了模型更精准理解蛋白质序列的能力。带有交叉注意力机制的双路径 U - Net 能有效融合两条路径的特征,为蛋白质二级结构预测提供了创新方法。

研究结论和讨论部分表明,ProAttUnet 模型凭借其独特的设计和先进技术的融合,在蛋白质二级结构预测上取得了显著成果,优于基准模型。该模型不仅为蛋白质结构预测提供了新的有效途径,也为后续相关研究奠定了基础,推动了生物信息学领域在蛋白质结构研究方向的发展,有望在更多与蛋白质相关的生命科学和医学研究中发挥重要作用,助力解决更多实际问题,例如加速药物研发进程、深入理解疾病发生机制等。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号