编辑推荐:
为解决蛋白质折叠问题及获取多构象,研究人员开发 FiveFold 方法,有效预测蛋白质多构象结构。
在生命科学的微观世界里,蛋白质就像一个个神奇的 “小工匠”,它们的结构与功能紧密相连,关乎着生命活动的方方面面。然而,想要精准地了解这些 “小工匠” 的模样,即蛋白质的结构,却并非易事。目前,蛋白质结构预测领域面临着诸多挑战。虽然像 AlphaFold 这样借助人工智能的方法在预测蛋白质结构时取得了前所未有的高精度,但它也存在明显的局限性。AlphaFold 只能预测出蛋白质的单一构象状态,无法展现蛋白质内在的无序性,不能为我们提供多种构象来全面认识蛋白质。而获取蛋白质的构象集合对于解决蛋白质折叠问题以及研究内在无序蛋白(IDP)至关重要,这就好比我们要了解一个复杂机器的工作原理,只看它的一种状态远远不够,需要知道它在不同情况下的各种形态。因此,为了突破这些困境,来自中国科学院深圳先进技术研究院等多个机构的研究人员开展了一项极具意义的研究。他们开发了一种名为 FiveFold 的方法,相关研究成果发表在《Scientific Reports》上。
研究人员在开展此项研究时,主要运用了以下几种关键技术方法:
- 构建蛋白质折叠形状代码(PFSC)体系:用 27 个字母组成的 PFSC 来描述五个氨基酸残基的折叠形状,从而简化复杂的蛋白质折叠对象。
- 建立数据库:包括 5AAPFSC 数据库,收集所有可能的五个氨基酸片段的折叠模式;PDB-PFSC 数据库则存储由已知 3D 结构转换来的 PFSC 字符串。
- 生成蛋白质折叠变异矩阵(PFVM):沿着蛋白质序列提取五个氨基酸残基的折叠形状,形成 PFVM,以此展示蛋白质的局部折叠变化。
- 构建蛋白质结构集合:通过高通量筛选 PDB-PFSC 数据库,根据 PFSC 字符串搜索相似的 3D 结构,进而构建蛋白质的多构象 3D 结构集合。
下面来看具体的研究结果:
- P53HUMAN的结构预测:P53HUMAN是一种重要的调控蛋白,能预防癌症形成,由 393 个氨基酸残基组成,有四个结构域。在对其进行结构预测时,研究人员先聚焦于 DNA 结合域。通过 PFSC 比对发现,它能比传统的结构叠加更好地揭示不同结构的折叠相似性和差异。利用 FiveFold 方法构建出的 P53 DNA 结合域的多构象 3D 结构,不仅具有较高的灵活性,还能准确地与已知结构匹配。对于整个 P53HUMAN蛋白,虽然其完整的 3D 结构难以通过实验测量或计算预测获得,但 FiveFold 方法仍能预测出多个构象,且预测结构与已知结构相比,在构象相似性上表现更优。
- LEF1HUMAN的结构预测:LEF1HUMAN是一种内在无序蛋白,由 399 个氨基酸残基组成,含有两个无序区域,在 PDB 数据库中没有其 3D 结构数据。研究人员借助 FiveFold 方法,通过其 PFVM 成功预测出多个构象结构。这些构象与 AlphaFold 预测的单一结构相比,含有更多的 α - 螺旋片段,且大多数二级结构片段能局部对齐。这表明 FiveFold 能够为内在无序的 LEF1HUMAN蛋白预测出更多不同的构象结构。
- Q8GT36_SPIOL 的结构预测:Q8GT36_SPIOL 是菠菜光合类囊体膜上的一种蛋白质,是研究内在无序蛋白的典型样本。研究人员根据其序列获得 PFVM,进而形成一系列可能的 PFSC 构象,并预测出 3D 结构。通过与 NMR 结构的比较,发现 PFSC 比对能很好地揭示两者的局部折叠相似性和差异,说明 FiveFold 方法为内在无序蛋白预测多构象结构提供了有效工具。
研究结论和讨论部分进一步凸显了 FiveFold 方法的重要意义。从准确性和灵活性的角度来看,该方法在预测蛋白质结构时,既能够构建出蛋白质的多构象结构,体现其灵活性,又能在与已知结构对比时保持较高的准确性。与深度学习方法如 AlphaFold 相比,FiveFold 采用了更具生物物理意义的算法,它基于单序列进行预测,能更好地揭示序列差异对蛋白质结构的影响,还能为内在无序区域提供多种折叠模式。此外,FiveFold 作为单序列方法,能够区分单个氨基酸替换导致的结构差异,对于研究蛋白质突变、不同物种间相同蛋白质的差异具有重要价值。在未来,研究人员计划进一步完善相关研究,如生成 PFVM 数据库方便科研人员使用,探索折叠构象变化与蛋白质功能或疾病之间的关系,借助改进的人工智能技术更好地从众多可能性中提取最优构象等。这项研究为蛋白质结构预测领域开辟了新的道路,有望推动生命科学和健康医学领域的进一步发展。