TP-VWGAN:开启蛋白质三级结构深度生成模型新篇章

【字体: 时间:2025年04月24日 来源:Scientific Reports 3.8

编辑推荐:

  在计算结构生物学领域,蛋白质三级结构研究意义重大。为解决现有方法在生成蛋白质距离矩阵方面的不足,研究人员开展 TP-VWGAN 模型研究。结果显示该模型性能卓越,能有效捕捉结构特征。这推动了蛋白质结构研究,助力药物设计等领域发展。

  蛋白质,作为生命活动的主要承担者,其三级结构(指蛋白质的多肽链在二级结构的基础上进一步盘绕、折叠形成的三维空间结构)对于理解其功能和相互作用至关重要。然而,目前确定蛋白质三级结构的实验室技术,如 X 射线晶体学、低温电子显微镜(cryo-EM)和核磁共振(NMR)光谱法,都存在一定的局限性,并非所有蛋白质结构都能通过这些方法测定。在计算方法方面,虽然深度学习的发展推动了蛋白质结构预测,像 DeepMind 的 AlphaFold2 能从氨基酸序列预测高精度的蛋白质结构,但仅依赖氨基酸序列无法考虑蛋白质的动态特性,获取蛋白质分子的多结构视图仍是一个重大挑战。
在此背景下,来自埃及卡夫勒谢赫大学(Kafrelsheikh University)和米努夫大学(Menoufia University)的研究人员开展了相关研究,旨在改进蛋白质三级结构距离矩阵表示的生成真实性,从而推动蛋白质结构研究的发展,为药物设计和蛋白质工程等领域提供更有力的支持。他们提出了 TP-VWGAN 模型,这是一种结合变分自编码器(Variational Autoencoder,VAE)的概率表示学习和带梯度惩罚的 Wasserstein 生成对抗网络(Wasserstein Generative Adversarial Network with Gradient Penalty,WGAN-GP)的对抗训练稳定性及真实数据生成能力的混合模型,并且在 VAE 架构中引入了残差块以增强模型性能。该研究成果发表在《Scientific Reports》上。

研究人员为开展此项研究,主要运用了以下关键技术方法:首先,从蛋白质数据库(Protein Data Bank,PDB)获取包含 122,082 个全原子蛋白质结构的数据集,将其处理为 128×128 的距离矩阵,作为训练和测试数据。其次,构建 TP-VWGAN 模型,融合 VAE 的编码器、解码器与 WGAN-GP 的批评器,并在 VAE 中加入残差块。最后,使用多种评估指标,如最大平均差异(MMD)、地球移动距离(EMD)、巴氏距离(BD)和弗罗贝尼乌斯范数(Frobenius Norm)等,对生成的距离矩阵进行全面评估。

下面来看具体的研究结果:

  • 收敛分析:通过对训练损失曲线的分析,发现重建损失在最初 20 个 epoch 迅速下降并趋于稳定,表明解码器能有效学习重建输入数据;KLD 损失先上升后稳定,体现了重建精度和潜在空间正则化之间的平衡;批评器损失持续下降,为生成器提供有效梯度,保证了训练的稳定性,证明模型能稳定收敛。
  • 过拟合评估:利用接触得分(Contact Score)、均方根偏差(Root Mean Square Deviation,RMSD)和模板建模得分(Template Modeling Score,TM-Score)等指标评估。结果显示,生成样本与测试数据的各项得分表明模型没有过度拟合,能够捕捉到未见蛋白质的有意义结构模式,有效泛化到训练数据之外,同时保持生物学上有意义的结构关系。
  • 结构特征评估:在评估生成距离矩阵的结构保真度时,从骨干结构、短程结构和长程结构三个方面进行分析。结果表明,带有残差块的 TP-VWGAN(TP-VWGAN w/res)在捕捉这些结构特征方面表现最佳,能生成与真实数据分布更接近的距离矩阵,无残差块的 TP-VWGAN(TP-VWGAN w/o res)表现次之,其他对比模型表现较差。
  • 对称性分析:研究发现模型生成距离矩阵的对称性与捕捉关键结构特征的能力密切相关。TP-VWGAN w/res 在训练过程中实现了最低的不对称得分,其次是 TP-VWGAN w/o res,这进一步证明了对称性在准确表示蛋白质结构中的重要性。
  • 可视化和分布分析:对生成距离矩阵的关键结构特征分布进行可视化和分析,结果表明 TP-VWGAN w/res 生成的距离矩阵结构特征与真实分布大多匹配,但在骨干得分上存在一些差异。同时,与无残差块的模型和 ROD-WGAN 相比,TP-VWGAN w/res 生成的距离矩阵更稳定、更接近真实数据,再次验证了残差块的重要作用。

研究结论和讨论部分指出,TP-VWGAN 模型通过结合 VAE 和 WGAN-GP 的优势,显著提高了生成蛋白质距离矩阵的真实性,残差块的加入增强了模型捕捉关键结构特征的能力。实验充分证明,该模型在生成真实蛋白质结构方面优于现有方法,且模型学习距离矩阵对称特征的准确性与其捕捉关键结构特征的能力呈正相关。这一研究成果在蛋白质结构建模领域迈出了重要一步,为后续研究提供了新的方向。不过,研究也存在一定局限性,如仅使用 PDB 数据可能限制模型处理复杂蛋白质结构的能力。未来的研究可以从扩展训练数据集、使用距离和二面角表示生成蛋白质结构、适应不同长度蛋白质以及探索生成数据的更广泛应用等方面展开,有望进一步推动蛋白质结构研究的发展,为药物设计、蛋白质工程等领域带来更多突破。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号