编辑推荐:
这篇综述聚焦蛋白质设计的语言模型。介绍其基础,探讨上下文条件设计、结构整合等进展,分析不足与研究方向。语言模型在蛋白质设计优势明显,助力深度学习设计满足特定需求的全新蛋白质,推动该领域发展。
蛋白质设计的语言模型应用综述
近年来,大语言模型(LLMs)发展迅猛,展现出强大的语言处理能力,甚至在某些方面超越人类。蛋白质可看作由氨基酸组成的序列,如同句子中的单词,因此语言建模原理可用于蛋白质结构预测、设计及属性预测,挖掘其中的有用信息。本综述着重探讨语言模型在蛋白质设计中的应用。
设计从头蛋白质(de novo proteins)
深度学习在蛋白质生物学的重要目标之一,便是设计满足用户特定需求的从头蛋白质。尽管基于结构的设计方法已取得显著进展,但语言模型在蛋白质设计方面仍具有独特优势。蛋白质序列数据库规模比结构数据库大得多,这使得在处理结构数据稀缺的蛋白质家族,或针对结构未知的靶点进行设计时,语言模型能够更稳健地发挥作用。
结论
随着高效注意力机制的发展、计算能力的提升,以及巧妙的模型工程设计,语言模型在包括蛋白质设计在内的众多领域不断取得新突破。从本综述来看,蛋白质设计领域的语言模型呈现出一些明显趋势:模型规模不断扩大,越来越多地整合其他模态信息(尤其是结构信息),以及灵活运用转移学习技术等。这些趋势将持续推动蛋白质设计语言模型的优化,助力设计出更符合需求的蛋白质,为蛋白质生物学研究及相关应用带来新的发展机遇。