《Journal of Proteome Research》:Protein Language Models: Applications and Perspectives
编辑推荐:
这篇综述系统阐述了蛋白质语言模型(pLM)这一新兴技术,其通过将氨基酸序列类比为自然语言,利用Transformer架构从海量蛋白质数据中学习进化、结构和功能模式。文章重点介绍了pLM在蛋白质结构预测、功能注释、从头序列设计、翻译后修饰(PTM)预测、生物物理性质(如溶解度、稳定性)预测以及蛋白质-蛋白质相互作用(PPI)、抗原-抗体结合预测等关键任务中的革命性应用,并深入探讨了其可解释性、数据偏差、计算需求等挑战及未来多模态融合、动态特性建模等发展前景。
蛋白质语言模型:解码生命分子的“语法”
在人工智能浪潮席卷科学界的今天,原本为处理人类文本而开发的大型语言模型(LLM),如GPT和BERT,已经成功地被适应性应用于蛋白质研究领域,催生了蛋白质语言模型(pLM)。这背后的核心思想颇具启发性:将氨基酸序列视作由20个“字母”组成的特殊“语言”,而pLM的任务就是学习这种语言的“语法”和“语义”,从而理解蛋白质的构成、功能与演化规律。
大型语言模型及其蛋白质适应性
Transformer架构是这些模型的引擎,其核心的自注意力机制能够同时关注序列中所有氨基酸之间的关系,从而捕捉局部模式和长程依赖关系。当应用于蛋白质时,每个氨基酸被当作一个“词元”(token)进行处理。模型通过自监督学习任务,例如掩码语言建模(预测被掩盖的氨基酸)或下一个氨基酸预测,在包含数百万序列的超大规模数据库(如UniRef)上进行预训练。这个过程使得模型能够学习到丰富的上下文嵌入表示,这些嵌入编码了蛋白质的进化、结构和功能信息,为下游各种任务奠定了强大基础。值得注意的是,为了避免模型在评估时“作弊”(即测试序列与训练序列过于相似),当前的最佳实践是采用基于同源性的数据划分策略,确保模型评估的真实泛化能力。
蛋白质语言模型的应用全景
pLM的应用版图正在快速扩张,几乎覆盖了计算蛋白质学的所有核心领域。
蛋白质序列生成
传统蛋白质设计方法如定向进化耗时耗力。pLM如ProGen和ProtGPT2能够根据指定的功能或结构标签(如蛋白质家族),像作家创作不同风格的文章一样,生成全新的、具有特定功能的蛋白质序列。实验验证表明,pLM设计的溶菌酶序列与天然序列相似度虽低,但确实具备催化活性,展现了其在蛋白质工程中的巨大潜力。
蛋白质功能预测
pLM能够超越传统的序列比对工具(如BLAST),更准确地预测蛋白质功能,例如酶学分类(EC)编号或基因本体(GO)术语。模型如ESM-2和ProteinBERT通过学习序列中深层的进化信号和保守基序,即使对于与已知蛋白质同源性较低的“孤儿蛋白”,也能提供可靠的功能注释,大大加速了蛋白质组的功能解读。
二级结构与接触预测
预测蛋白质的局部折叠(如α螺旋、β折叠)和残基间的空间接触是理解其三维结构的关键。pLM如MSA Transformer和ProtTrans能够高效准确地完成这些任务,其性能甚至可与依赖多重序列比对(MSA)的传统方法相媲美。一些模型如RGN2更进一步,能够直接从序列预测蛋白质主链的三维坐标,展示了pLM在结构生物学中的强大能力。
翻译后修饰预测
翻译后修饰(PTM)如磷酸化、泛素化等,是调控蛋白质功能的关键开关。pLM通过分析序列上下文和模式,能够高精度地预测潜在的PTM位点。例如,DeepPTM利用ProtBERT的嵌入来预测多种PTM类型,为研究细胞信号传导和疾病机制提供了重要工具。
进化与突变效应预测
pLM能够评估氨基酸突变对蛋白质稳定性、功能的影响,这对于理解遗传病致病机制和指导蛋白质工程至关重要。模型如ESM系列在零样本设置下(即无需特定任务的训练数据)就能准确预测突变效应,为大规模变异解读和体外定向进化提供了高效的计算方案。
生物物理性质预测
蛋白质的溶解度、稳定性、聚集倾向等性质直接影响其功能和可开发性。pLM嵌入已被成功应用于预测这些性质。例如,NetSolP模型利用pLM特征能够高精度预测蛋白质在大肠杆菌中的可溶性表达情况,而ESMtherm则可预测蛋白质的热稳定性(ΔG),为工业酶和生物制药的优化设计提供指导。
蛋白质-蛋白质相互作用与结合亲和力预测
预测蛋白质之间如何相互作用及其结合强度是网络药理学和免疫学的基础。pLM通过将相互作用的蛋白质序列的嵌入进行组合或使用专门的交叉注意力模型(如MINT),能够有效预测二元相互作用甚至结合自由能的变化(ΔΔG),为理解细胞内的复杂调控网络开辟了新途径。
抗原-受体/抗体结合预测
在免疫学应用中,pLM大放异彩。专门针对T细胞受体(TCR)、B细胞受体(BCR/抗体)训练的模型,如tcrLM、AntiBERTy等,能够从其序列中预测它们与抗原(如病毒肽段)结合的特异性和亲和力。这为加速治疗性抗体发现、癌症新抗原识别和疫苗设计提供了强大的计算工具。
挑战与局限
尽管前景广阔,pLM的发展仍面临诸多挑战。其“黑箱”特性导致可解释性不足,难以理解模型决策的生物学基础。训练数据的偏差可能使模型对某些蛋白质家族或物种表现更好。训练-测试数据泄露的风险需要严格的数据划分策略来规避。将连续序列 token化为离散单元的最佳方式仍在探索中。此外,模型的计算成本高昂,处理长序列的能力和跨蛋白质家族的泛化能力仍有待提升。
未来展望
未来,pLM的研究将趋向于与结构信息、物理原理以及多组学数据(如基因组上下文)相结合的多模态模型,以更全面地理解蛋白质在细胞环境中的动态行为。提高模型的效率和可解释性将是持续的努力方向。在应用层面,pLM有望在药物发现(设计新型疗法)、精准医疗(解读基因变异)和合成生物学(创造定制化蛋白质)中发挥变革性作用。建立社区公认的基准测试和模型库对于追踪快速发展的领域和选择合适工具至关重要。
结论
蛋白质语言模型通过将蛋白质序列转化为富含信息的数学表示,正在深刻改变我们研究、理解和设计蛋白质的方式。它们提供了一种从序列直接推断结构、功能和相互作用的强大范式,正在成为蛋白质科学家的必备工具。尽管在可靠性、可及性和生物学合理性方面仍需完善,但pLM无疑已经开启了一个数据驱动的蛋白质研究新时代,有望在基础生物学发现和生物技术创新中催生重大突破。