
-
生物通官微
陪你抓住生命科技
跳动的脉搏
为设计蛋白质而开发的人工智能模型模拟了5亿年的蛋白质进化,以开发新的荧光蛋白
【字体: 大 中 小 】 时间:2025年01月21日 来源:AAAS
编辑推荐:
在被称为ESM3的多模态生成语言模型的指导下,Thomas Hayes和他的同事生成并合成了一种以前未知的明亮荧光蛋白,其基因序列与已知的荧光蛋白如此不同,以至于研究人员说它的创造相当于模拟5亿年生物进化的ESM3。该模型可以提供一种新的方法来“搜索”蛋白质的可能性空间,以更好地理解自然进化的蛋白质是如何工作的,以及开发用于医学、环境修复和许多其他应用的新蛋白质。ESM3可以对蛋白质序列、结构和功能进行推理,方法是通过可以在生成语言模型中组合的离散符号的字母表来表示每一个符号。这种策略不同于以前使用的语言模型,这些模型只针对蛋白质序列进行缩放。
在被称为ESM3的多模态生成语言模型的指导下,Thomas Hayes和他的同事生成并合成了一种以前未知的明亮荧光蛋白,其基因序列与已知的荧光蛋白如此不同,以至于研究人员说它的创造相当于模拟5亿年生物进化的ESM3。
该模型可以提供一种新的方法来“搜索”蛋白质的可能性空间,以更好地理解自然进化的蛋白质是如何工作的,以及开发用于医学、环境修复和许多其他应用的新蛋白质。
ESM3可以对蛋白质序列、结构和功能进行推理,方法是通过可以在生成语言模型中组合的离散符号的字母表来表示每一个符号。这种策略不同于以前使用的语言模型,这些模型只针对蛋白质序列进行缩放。ESM3的训练数据包括7710亿个唯一标记,这些标记来自31.5亿个蛋白质序列、2.36亿个蛋白质结构和5.39亿个带有功能注释的蛋白质。
ESM3可以训练多达980亿个参数。ESM3现在通过API进行公测,使科学家能够以编程方式或通过基于浏览器的交互式应用程序来设计蛋白质。研究人员可以通过免费的学术访问层使用evoltionaryscale Forge API,或者使用开放模型的代码和权重。
生物通微信公众号
知名企业招聘