超越AlphaFold:人工智能创建新蛋白质

【字体: 时间:2022年09月16日 来源:生物通

编辑推荐:

  人工智能AlphaFold对蛋白质结构预测的准确性令人大吃一惊。现在在蛋白质设计方面也有类似的革命。华盛顿大学医学院的生物学家表示,人工智能可以用来创建蛋白质分子,比以前精确和快速得多。通过创建自然界不存在的、有用新蛋白质,他们希望这一进展将帮助开发更多新的疫苗、治疗方法、碳捕获工具和可持续的生物材料。

  
   

A.I. in Protein Design    

图片:用一种叫做ProteinMPNN的超快速软件工具设计的蛋白质更有可能按预期折叠。    

图片来源: 华盛顿大学蛋白质设计医学研究所

在过去的两年里,人工智能/机器学习工具对蛋白质结构预测的精确性令世人震惊,并已经引导研究领域产生了一些有意义的结果。包括AlphaFold和RoseTTAFold在内的强大的机器学习算法已经被训练到能够仅根据天然蛋白质的氨基酸序列来预测其详细结构。机器学习是一种人工智能,它允许计算机从数据中学习,而无需明确编程。机器学习可以用来模拟人类难以理解的复杂科学问题。现在蛋白质设计领域也有了类似的变革,华盛顿大学医学院的生物学家们已经有三篇发表在《Science》上的论文介绍了在蛋白质设计领域的类似革命,表明机器学习可以用来构建蛋白质分子,比以前精确和快速得多。科学家们希望这一进展将启发和带来更多新的疫苗、治疗方法、碳捕获工具和可持续的生物材料。

蛋白质通常被称为“生命的基石”,因为它们是所有生物的结构和功能所必需的。它们几乎参与细胞内发生的每一个过程,包括生长、分裂和修复。蛋白质是由氨基酸长链组成的。蛋白质中氨基酸的序列决定了它的三维形状。这种复杂的形状对蛋白质发挥作用至关重要。

蛋白质序列设计问题是在给定感兴趣的蛋白质骨架结构的条件下,找到一个可以折叠成该结构的氨基酸序列。过去,像 Rosetta 这样的基于物理的方法将序列设计视为能量优化问题,寻找对于给定输入结构具有最低能量的氨基酸同一性和构象的组合。如今,深度学习方法已显示出在给定单体蛋白质骨架的情况下快速生成候选氨基酸序列的前景,而无需对侧链旋转异构状态进行大量计算。

“蛋白质是整个生物学的基础,但我们知道,在每一种植物、动物和微生物中发现的所有蛋白质所占的比例远远未到可能的1%。有了这些新的软件工具,研究人员应该能够为医学、能源和技术方面的长期挑战找到解决方案,”华盛顿大学医学院生物化学教授、2021年生命科学突破奖得主、资深作者David Baker说。

为了超越自然界中发现的蛋白质,Baker的团队成员将蛋白质设计的挑战分解为三个部分,并针对每个部分使用新的软件解决方案。

首先,必须构建一个预期的新蛋白质序列。蛋白质的生化功能通常由构成功能位点——例如酶活性位点、蛋白质或小分子结合位点——的氨基酸子集执行,因此设计具有新功能的蛋白质的可分为两个步骤。第一步是确定产生所需活性的功能位点几何形状和氨基酸同一性,通过计算,他们发现了哪些序列预测能折叠成为包含特定功能位点的稳定结构 。第二步:他们设计了一个工具,用结构预测网络进行再训练,使之能能根据某个给定来功能位点描述,设计出一个氨基酸序列,该序列能折叠成包含该位点的三维 (3D) 结构。

7月21日在《Science》杂志上发表的一篇论文中,该团队展示了人工智能可以通过两种深度学习方法来设计包含预先指定的功能位点的蛋白质。第一种“constrained hallucination”,对人工智能提出的“预测能折叠成包含所需的功能位点结构的序列”进行优化。第二种方法,“inpainting”,从功能位点开始,填充额外的序列和结构,通过经过专门训练的 RoseTTAFold 网络在单次前向传递中创建可行的蛋白质支架。

然后,为了加快这一过程,该团队设计了一种基于深度学习的蛋白质序列设计方法 ProteinMPNN,广泛适用于单体、环状低聚物、蛋白质纳米颗粒和蛋白质-蛋白质界面的设计,在计算机和实验测试中均具有出色的性能。ProteinMPNN运行时间约为1秒。这比之前最好的软件快200多倍;ProteinMPNN 对天然蛋白质骨架的序列恢复率为 52.4%,而原有的Rosetta 仅为 32.9%;不同位置的氨基酸序列可以在单链或多链之间偶联,从而能够应用于当前广泛的蛋白质设计挑战。ProteinMPNN的结果优于先前的工具,并软件不需要专家定制即可运行。结果发表在9月15日出版的《Science》期刊上。

“如果你有大量的数据,神经网络很容易训练,但对于蛋白质,没有我们想要的那么多的例子。我们必须深入研究并确定这些分子中哪些特征是最重要的。这是一个试验和试错的过程,”蛋白质设计研究所博士后、项目科学家Justas Dauparas说

接着,该团队使用AlphaFold (Alphabet旗下DeepMind开发的工具)独立评估他们设计出的氨基酸序列是否有可能折叠成预期的形状结构。

“预测蛋白质结构的软件是解决方案的一部分,但它不能自己提出任何新的东西,”Dauparas解释说。“ProteinMPNN之于蛋白质设计,就像AlphaFold之于蛋白质结构预测。”

在另一篇发表在9月15日的《Science》的论文中,Baker实验室的一个团队证实,新机器学习工具的组合能够可靠地生成在实验室中起作用的新蛋白质。新的蛋白质设计方法扩展了原有的折叠空间,展示了深度学习探索设计领域以前未知区域的能力,突出了 ProteinMPNN 方法在蛋白质序列设计中的强大功能。在通过 SEC-MALS、nsEM、cryoEM 或 X 射线晶体学实验评估的 192 个设计中的 30 个,27 个具有预期的低聚状态,19 个尝试结晶有 7 个形成衍射晶体(结晶成功率比 Rosetta de novo 设计的典型结晶成功率高得多,并表明 ProteinMPNN 可能产生更可能形成晶体接触的蛋白质表面)。

“我们发现使用ProteinMPNN创建的蛋白质更有可能按预期折叠,我们可以使用这些方法创建非常复杂的蛋白质组合。”蛋白质设计研究所的博士后、项目科学家Basile Wicky说。在制造出的新蛋白质中,有一种是纳米级的环,研究人员认为这种环可以成为定制纳米机器的部件。电子显微镜被用来观察这些直径大约比罂粟种子小十亿倍的环。“这是机器学习在蛋白质设计中的开始。在未来的几个月里,我们将努力改进这些工具,以创造出更有活力和功能的蛋白质。”


相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号