M-DeepAssembly:突破多结构域蛋白预测难题,解锁生命分子密码

【字体: 时间:2025年05月06日 来源:BMC Bioinformatics 2.9

编辑推荐:

  多结构域蛋白结构预测面临进化信号弱、结构大等挑战。研究人员开展 “M-DeepAssembly:基于多目标多结构域蛋白构象采样的增强 DeepAssembly” 研究,结果显示该方法预测精度更高,为探索多结构域蛋白功能提供新视角。

  在生命科学的微观世界里,蛋白质一直是科学家们重点关注的对象。自 1838 年 Mulder 提出蛋白质的概念以来,它在各种生物过程中都扮演着关键角色,比如催化生化反应、运输营养物质、识别和传递生物信号等。然而,想要精准地了解蛋白质的结构,传统实验方法耗时又耗力,就像在黑暗中摸索,困难重重。
随着深度学习技术的崛起,蛋白质结构预测领域迎来了曙光,像 AlphaFold2 和 RoseTTAFold 等优秀方法不断涌现,解决了不少难题。但蛋白质世界的探索之路仍未结束,在多结构域蛋白结构预测方面,还存在着诸多挑战。当获取的结构域配对信息较弱,或者蛋白质结构较大时,现有的预测方法就难以发挥作用。就好比拼图时,关键的拼图碎片信息不足,又或者拼图规模太大,让拼图变得异常困难。

为了攻克这些难题,浙江工业大学的研究人员开展了一项关于多结构域蛋白组装的研究,提出了 M-DeepAssembly 方法,相关成果发表在《BMC Bioinformatics》上。这项研究意义重大,它为多结构域蛋白组装提供了新的算法,一定程度上缓解了进化信号弱和结构大带来的预测难题,有助于深入探索多结构域蛋白的功能,为研究具有多种构象状态的靶点提供了新的思路。

研究人员在这项研究中运用了多种关键技术方法。首先,利用基于序列的结构域解析器 DomBpred 将全长蛋白质序列分割为多个单结构域序列。接着,通过 HHblits 搜索 Uniclust30 和 BFD 数据库获取多序列比对(MSA)特征,用 HHsearch 搜索 PDB 数据库得到模板特征 ,并结合 DomBpred 提取的结构域间特征,输入到 DeepAssembly 网络预测结构域间相互作用;同时,借助 AlphaFold2 获得单结构域结构和全长序列距离特征。然后,基于这些特征构建多目标能量模型,利用多目标构象采样算法生成多种构象集合,最后使用自行开发的模型质量评估(MQA)算法筛选出最佳模型。

研究结果


  1. 数据集:为了保证研究的公平性和准确性,研究人员精心挑选了两个测试集。一个是来自 AlphaFold 数据库中 164 个 TM 分数(template modeling score,用于衡量蛋白质结构拓扑相似性的指标 )小于 0.8 的人源多结构域蛋白,这些蛋白涵盖了 2 个结构域、3 个结构域以及超过 3 个结构域的不同类型;另一个测试集则是收集的 13 个 CASP15(Critical assessment of techniques for protein structure prediction,蛋白质结构预测技术的关键评估)多结构域蛋白靶点12
  2. 基准集结果:在 164 个非冗余多结构域蛋白的测试中,研究人员将 M-DeepAssembly 与 DeepAssembly 和 AlphaFold2 进行了对比。结果令人惊喜,M-DeepAssembly 表现出色,生成模型的平均 TM 分数达到 0.704,比 AlphaFold2 的 0.610 高出 15.4%,均方根偏差(RMSD,衡量蛋白质结构差异的指标 )为 10.419?,比 AlphaFold2 的 13.590? 低 23.3%。而且,M-DeepAssembly 的构象集合中还有表现更优的模型,虽然最终未被模型质量评估算法选中,但这些模型的平均 TM 分数比 AlphaFold3 和 DeepAssembly 分别高出 13.8% 和 6.4%,这充分说明了模型质量评估在模型选择中的重要性34
  3. CASP15 多结构域靶点结果:在对 13 个 CASP15 多结构域靶点的研究中,M-DeepAssembly 同样展现出了优势。其生成模型的平均 TM 分数为 0.573,而 AlphaFold2 仅为 0.567。M-DeepAssembly 构象集合中最佳模型的平均 TM 分数更是达到 0.591,比 AlphaFold2 和 AlphaFold3 分别高出 4.2% 和 8.6%。在特定靶点 T1121 上,M-DeepAssembly 的 TM 分数提升尤为显著,达到 0.925,相比 AlphaFold2 的 0.743,提高了 24.5%。此外,当使用实验单结构域结构进行组装时,M-DeepAssembly 生成模型的平均 TM 分数提升到 0.741,这也反映出单结构域结构预测精度对全长多结构域蛋白预测结果的重要影响56
  4. 消融研究:为了探究 M-DeepAssembly 各个组件的作用,研究人员设计了两个消融实验。第一个实验(M-DeepAssembly-w/o-inter)仅考虑全长序列距离特征,第二个实验(DeepAssembly-w/o-full)仅使用结构域间相互作用。结果表明,M-DeepAssembly 生成的最佳模型的平均 TM 分数比不包含全长序列距离特征的版本(M-DeepAssembly-w/o-full)高 2.0% ,比不包含结构域间相互作用的版本(M-DeepAssembly-w/o-inter)高 37.8%,这突出了结构域间相互作用和全长序列距离特征互补对提高预测模型准确性的重要作用78
  5. 案例研究:构象集合中的多构象洞察:研究人员还惊喜地发现,M-DeepAssembly 具有检测蛋白质构象动态变化的潜力。以肺炎链球菌反应调节蛋白 spr1814 为例,在获得的构象集合中同时存在两种构象。这两种构象的结构域间相互作用存在差异,构象 A 中特定残基形成盐桥,而构象 B 中盐桥消失,导致效应结构域发生 74° 的旋转,进而影响了蛋白质的功能。M-DeepAssembly 成功捕捉到这两种不同的构象状态,且对应的 TM 分数分别为 0.985 和 0.8619

研究结论与讨论


蛋白质并非单一的静态结构,而是具有多种可及状态的构象集合。蛋白质的柔性区域往往是其功能的关键所在,研究多结构域蛋白铰链区域的运动以及由此产生的多种构象状态,对于揭示生物过程及其调控机制至关重要。M-DeepAssembly 通过整合 DeepAssembly 预测的结构域间相互作用信息和 AlphaFold2 预测的全长序列距离信息,并结合多目标优化算法探索构象空间,在一定程度上提高了多结构域蛋白结构的预测准确性。虽然该方法在测试集中表现优异,但对于长度超过 1500 个氨基酸的蛋白质预测任务,以及多结构域复合物中的蛋白质结构预测问题,仍有待进一步研究和改进。未来,研究人员将继续聚焦于探索蛋白质的多种构象和构象集合,深入揭示蛋白质的动态特性及其在生物学中的重要作用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号