运用人工智能来预测蛋白质的结构和相互作用

【字体: 时间:2023年03月08日 来源:生物通

编辑推荐:

  ChatGPT的惊艳亮相,引发了人们对人工智能(AI)的关注。其实,生物学领域的AI热潮早在两年前就已经掀起。

ChatGPT的惊艳亮相,引发了人们对人工智能(AI)的关注。其实,生物学领域的AI热潮早在两年前就已经掀起。

2020年,DeepMind团队从伦敦出发,参加第14届国际蛋白质结构预测竞赛CASP14。他们的AlphaFold2模型打败了众多对手,获得了92.4分的GDT_TS评分(大概意思是,与真实模型相比,正确预测蛋白质的比例)。这些结果于次年发表在《Nature》杂志上1

不过,CASP14已经是两年前的事情了。从那时起,许多研究人员开始跳上AI的列车,用他们自己的想法来扩大这种技术的潜力。

预测蛋白结构

CASP14是AI预测蛋白结构的分水岭,但真正的革命早在数年前就开始了。芝加哥丰田技术研究所的许锦波教授在2016年使用卷积神经网络(一种深度学习模型),预测了数百种蛋白的三级结构。当时,“对单一蛋白质结构预测来说,改进确实很显著,”他说。“在CASP13中,这种深度学习模型将预测质量从不到40分提升到60多分。”

2020年初,第一个AlphaFold模型发表在《Nature》杂志上。它也使用神经网络来预测蛋白质结构,并为43个蛋白结构域中的24个创建了高精度结构。大约同一时间,华盛顿大学的David Baker实验室也发布了他们自己的模型RoseTTAfold,仅仅依靠序列信息就能够快速生成准确的蛋白质复合物模型2

从表现尚可到准确预测,这个过程并不简单。大多数预测模型依赖两大类数据:蛋白质序列和蛋白质结构。如果一种天然蛋白质在数据库中没有任何序列同源物或类似蛋白,那么结构上的准确预测仍然是一个挑战。

不过,2021年许锦波教授及其同事在《Nature Machine Intelligence》杂志上发文称,大型神经网络只利用序列数据就可以预测超过一半的蛋白质的结构,准确度超过80%,而且不依赖共同进化信息3

如今,AlphaFold2仍是结构预测的主流模型,不过其他研究团队在此基础上进行了扩展,他们现在甚至可以想象全新蛋白质的结构,在最近一项发表于《Science》的研究中,Baker领导的团队开发出一种大型语言模型来生成全新的蛋白质4,这有点像AI绘画(你输入一段文字,它输出一幅图画)。

这个被称为ProteinMPNN的软件工具可以在大约1秒钟内完成这一工作,而不需要任何专家培训。将这一工具与AlphaFold相结合,研究人员能够快速生成蛋白质,模拟其结构,并完善方法来找到具有理想性质的蛋白质。

从许多方面来说,这一成就是生物学AI新时代的曙光:使用算法不仅可以解决现有蛋白质的结构,还创造了全新的可能性。

预测蛋白互作

人类基因组中大约包含2万个蛋白质编码基因。人们认为,特定细胞内存在超过十万个独特的蛋白质相互作用(PPI)。绘制这种复杂性是生物学的一个巨大挑战,也是另一个特别适合AI工具的问题。

不过,麻省理工学院的博士后研究员Felix Wong认为,预测PPI更具挑战性。“即使是一个小分子也可能有几十个原子,而弄清楚在哪里起作用是很复杂的。单个蛋白质中可能有几十个结合口袋,”他补充说。

AlphaFold模型目前只预测了蛋白质结构的一幅快照。不过,在活细胞内与其他蛋白接触时,蛋白质往往会发生扭曲。那么,如果一种预测工具能够生成一系列潜在结构,则会更有用。

许多研究团队也将AI模型应用在蛋白质相互作用和复合物上。去年,DeepMind团队推出了AlphaFold-Multimer模型5。它的工作原理如下:首先建立复合物的多序列比对,以推断进化关系,然后用与AlphaFold2基本相同的深度学习方法来预测三级结构。此外,一个名为AlphaPulldown的开源软件包可用来快速运行AlphaFold-Multimer模型。

类似的蛋白质复合物模型已经被用于研究大肠杆菌的蛋白质组,并破译具有挑战性的蛋白质结构,包括细胞色素c生成系统中的蛋白质。

随着AI模型的不断改进,许锦波教授打算用它们来进行“虚拟药物”筛选。“如果我们有一个非常好的算法来预测蛋白质相互作用,那么我们就能进行抗体的虚拟筛选,”他谈道。

然而,Felix Wong和Aarti Krishnan开展的一项最新研究表明,基于AlphaFold的分子对接模型目前还不能准确预测蛋白质与抗生素的相互作用,尽管抗生素是小分子,原子数远远小于抗体。

尽管如此,未来仍然大有希望。人们可采用AI模型来改进分子对接工具,如AutoDock、DOCK、LeDock或FlexAID,以便快速筛选与蛋白质相互作用的小分子。最近,一个名为EquiBind的工具将几何推理能力与机器学习模型相结合,可直接精准预测配体与蛋白质结合的位置。

Krishnan认为,未来的一个主要限制是数据。“我们想用实验训练数据集来改进机器学习模型,”她解释说。“目前的模型主要是在孤立的蛋白质上训练的,若拥有蛋白质与配体结合后的冷冻电镜结构,那将会很有用,有望改善训练数据集。”

参考文献

1. Jumper J. et al. Highly accurate protein structure prediction with AlphaFold. Nature (2021).

2. Baek M. et al. Accurate prediction of protein structures and interactions using a three-track neural network. Science (2021)

3. Xu J., McPartlon M & Li J. Improved protein structure prediction by deep learning irrespective of co-evolution information. Nature Machine Intelligence (2021).

4. Wicky B.I.M. et al. Hallucinating symmetric protein assemblies. Science (2022).

5. Evans R. et al. Protein complex prediction with AlphaFold-Multimer. bioRxiv (2022).


订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号