综述:蛋白质语言模型在蛋白质 - 小分子相互作用预测中的最新进展与未来趋势

【字体: 时间:2025年05月26日 来源:Current Opinion in Structural Biology 6.1

编辑推荐:

  该综述聚焦蛋白质语言模型(PLMs)在预测蛋白质 - 小分子相互作用领域的应用,介绍 PLMs 及小分子数值表征方法,探讨相互作用预测模型分类、任务应用,分析当前局限并展望结合 3D 结构等发展方向。

  

蛋白质语言模型与蛋白质 - 小分子相互作用预测研究


引言


蛋白质 - 小分子相互作用的测定在制药和生物技术研究等领域至关重要,但实验测定耗时费钱。机器学习预测模型可通过生成蛋白质和小分子的数值表征来加速这一过程,蛋白质语言模型(PLMs)便是蛋白质数值表征的先进通用方法,其灵感源于自然语言处理,可成功应用于蛋白质序列分析。本综述将探讨近年使用 PLMs 预测蛋白质 - 小分子相互作用的方法与应用,涵盖 PLMs 介绍、小分子数值表征技术、相互作用模型构建、应用领域、当前局限及改进方向。

蛋白质 - 小分子相互作用模型


蛋白质语言模型

蛋白质序列数值表征的先进通用方法是使用 PLMs,尤其是蛋白质 Transformer 编码器。这类模型通过将蛋白质序列分割为称为标记的子序列进行处理,最常见的是氨基酸级标记化。每个标记最初由一个单独的数值向量表示其类型和在序列中的位置,编码器的目标是通过整合序列中其他氨基酸的信息来改进所有表征,具体更新方式和信息提取由训练阶段学习到的更新函数决定。

PLMs 最常见的训练任务是随机掩盖蛋白质序列中的部分氨基酸,并训练模型利用未掩盖氨基酸的信息预测这些氨基酸的类型,大多数模型默认掩盖率约为 15%,但最佳率可能因模型而异,例如较大的模型在较高掩盖率下表现更好。近期开发的 ESM-3 模型引入了在预训练期间改变掩盖率的噪声调度。

Meta AI 的 ESM 模型,尤其是参数范围从 800 万到 150 亿的 ESM-2 系列,是应用最广泛的 PLMs,其在包含 6500 万不同蛋白质序列的数据集上训练。此外,Elnaggar 等人开发了 ProtBERT-BFD 和 ProtT5 等广泛使用的 PLMs,前者有 4.2 亿参数,在 21 亿蛋白质序列上训练,后者有 30 亿参数,在 4500 万蛋白质上训练,这些模型均使用上述掩盖策略训练。

PLMs 经过训练可计算给定输入蛋白质序列中每个氨基酸的更新向量表征,为了表示完整的蛋白质,需要计算一个总结这些氨基酸特定信息的单一向量,常见方法是对所有更新的氨基酸表征应用池化函数,如所有表征的元素平均,虽会丢失信息,但仍能捕获蛋白质的重要结构和功能特征。

此外,预训练的 PLM 可针对特定的下游预测任务进一步训练,即微调。在此过程中,模型学习合适的池化函数,或将相关信息存储在表示整个蛋白质的额外向量(分类表征)中。尽管微调大型 PLMs 通常能提高性能,但计算成本高且耗内存,参数高效微调方法(如 LoRA)通过仅更新较小部分参数来缓解这些需求,在 NLP 和蛋白质语言建模中均显示出良好效果。

蛋白质结构预测模型(如 AlphaFold 2、RoseTTAFold 和 ESMFold)的最新进展使许多蛋白质能从序列中准确预测结构,基于此,一些方法将 3D 结构信息作为输入整合到蛋白质语言模型中。例如,DeepFRI 和 ESM-GearNet 整合图神经网络(GNNs)来捕获氨基酸连接性,这些 GNNs 处理蛋白质序列的方式与标准 PLMs 类似,但标记间的信息交换限于 3D 结构中空间接近的氨基酸,这有助于模型在更新表征时聚焦相关氨基酸,在某些蛋白质预测任务中略有性能提升。

最近,ESM-3 模型引入了一种新方法,在模型输入中同时对蛋白质序列及其 3D 结构进行标记化,使其能生成基于序列和结构任务的表征,这些表征可提取并用于下游蛋白质预测任务,尽管 ESM-3 可微调用于蛋白质 - 小分子相互作用预测等应用,但目前尚未有相关研究发表。

小分子的数值表征

小分子的数值表征可通过神经网络或专家设计的方法获得,常见方法之一是训练 GNNs,将小分子表示为图,原子为图节点,键为边,每个原子和键编码为数值向量,GNN 基于相邻原子和键的信息迭代更新这些向量。另一种通过神经网络学习小分子表征的方法是使用 Transformer 编码器,处理编码小分子结构(包括立体化学)的 SMILES 字符串。

与 PLMs 类似,GNNs 和小分子 Transformer 可通过掩盖部分输入并利用剩余输入信息预测掩盖部分来进行预训练,也可训练用于预测易于计算的分子描述符,或在有足够训练数据时针对特定预测任务。训练后,可通过对所有更新的数值表征应用池化函数(如元素平均)为每个小分子提取单个数值向量。

此外,专家设计的方法可在无需机器学习的情况下编码小分子信息,这些方法通常基于分子的图表示,生成编码特定子结构存在与否的二进制向量(分子指纹)。尽管基于机器学习的方法通常提供更好的数值表征,但需要更多计算资源,因其涉及在大型数据集上训练具有数百万参数的模型。

基于 PLMs 的蛋白质 - 小分子相互作用预测

蛋白质 - 小分子相互作用预测模型分为两类。第一类使用预训练的深度学习模型或专家设计的指纹生成蛋白质和小分子的表征,将这些表征连接成输入向量,输入到单独的机器学习预测模型(通常是小型前馈神经网络或梯度提升决策树),后者在这类预测任务中表现略好。训练期间,预测模型从固定输入向量中提取相关信息,尽管表征未微调,但在有限数据下效果良好,因其常捕获基本特征,且小数据集微调效果差易过拟合。

第二类涉及深度学习模型的端到端训练,同时实现两个目标:生成任务特定的分子表征和提供预测。“端到端训练” 指在同一过程中同时调整任务(i)和(ii)的模型参数,任务特定表征的生成通常基于预训练深度学习模型的进一步参数调整。与第一类方法不同,该方法从分子中提取更多任务相关信息,但需要更大的数据集和更多计算资源。

传统上,端到端模型首先由两个独立但并行的模块组成,分别负责生成蛋白质和小分子的向量表征,生成数值向量表征后,另一个深度学习模块使用这两种表征对感兴趣的蛋白质 - 小分子相互作用进行预测。然而,在不考虑相互作用的情况下分别生成蛋白质和小分子的数值表征可能导致表征不佳。最近,ProSmith 和 ESM-AA 提出将蛋白质序列和小分子结构信息整合到单个多模态 Transformer 网络的输入中,生成联合数值表征,这允许在表征生成过程中更好地交换信息,并捕获两种不同类型分子之间的复杂关系和相互作用。

蛋白质 - 小分子相互作用建模的替代方法


尽管本综述聚焦 PLMs 在蛋白质 - 小分子相互作用预测中的应用,但本小节简要概述对接、共折叠和分子动力学(MD)模拟等替代计算方法。

对接方法通过使用采样算法和评分函数识别最低能量构象,预测小分子如何结合到蛋白质的结合位点,广泛应用于基于结构的药物发现虚拟筛选,帮助识别潜在药物候选物,其准确性取决于用于估计结合亲和力的评分函数,通常需要已知结合位点的先验知识。

共折叠方法通过将蛋白质折叠与配体对接相结合(通常使用深度学习)预测蛋白质 - 配体复合物,最近基于 Transformer 的模型(如 AlphaFold 3 和 RoseTTAFold All-Atom)是该领域的突出模型,它们基于先前的蛋白质结构预测器,扩展到预测包括与小分子、核酸和离子结合的生物分子复合物。共折叠方法可提供准确预测,但需要大量训练数据,且难以预测未见配体的亲和力,此外,尽管模型可提供与结合姿势质量相关的置信度分数,但主要针对结构预测优化,不易微调用于下游蛋白质任务。

MD 模拟提供蛋白质 - 配体复合物内原子相互作用的时间分辨视图,捕获构象动力学和结合动力学,使用力场计算原子相互作用并整合运动方程来模拟分子轨迹,尽管对完善对接预测有价值,但计算成本高,尤其在高通量筛选或慢结合过程中。

相比之下,传统 PLMs 无需蛋白质的 3D 结构,可轻松微调以预测不仅结合是否发生,还可预测不同类型的相互作用(如抑制、激活或催化活性),但 PLMs 的黑箱性质限制了潜在结合机制的可解释性。

蛋白质 - 小分子相互作用预测任务


预测酶动力学参数

蛋白质 - 小分子相互作用模型对预测酶动力学参数(如周转数kcat和米氏常数KM)至关重要,这些参数分别定义酶的催化速率和对底物的亲和力,了解这些参数对表征酶的催化特性和参数化基因组规模代谢模型很重要。传统上,缺失的动力学参数通过使用具有测量动力学参数的密切相关酶的数据来估计,但最近开发的机器学习模型表现更优。

TurNuP 和 EITLEM 是kcat预测的先进模型,TurNuP 使用预训练 ESM-1b 模型的蛋白质嵌入和专家设计的小分子指纹,EITLEM 使用迁移学习从相关任务中学习并微调蛋白质 Transformer 网络。对于与所有训练酶序列同一性低于 40% 的酶,基于朴素同源性的推断(即平均最相似训练酶的kcat值)仅能预测kcat值方差的 2%,而 TurNuP 和 EITLEM 可解释这些酶约三分之一的方差。

尽管 DLKcat 报告的整体性能指标高于 TurNuP 和 EITLEM,但其对未见酶的泛化能力差,研究表明,对于与所有训练酶序列同一性低于 60% 的酶,DLKcat 的表现比简单的基于同源性的方法更差。

对于KM预测,当前先进模型 EITLEM 和 ProSmithKM的决定系数R2大于 0.5,表明这些模型可预测KM值方差的一半以上,UniKP 表现略低,且对未见酶的泛化性不确定。

酶特异性常数kcat/KM是有价值但较少预测的动力学参数,可能因训练数据有限,预测该常数(如 UniKP 和 EITLEM 所做)有几个优点:kcat/KM在某些条件下可直接测量,通常比KM测量更准确(后者常通过曲线拟合估计),更可靠的输入数据提高了模型性能,使kcat/KM模型能用更少的训练数据解释更多观测值的方差。

蛋白质的小分子范围

酶的底物范围

确定酶的底物对药物研究和生物工程(包括药物、食品和生物燃料生产)至关重要,最大的蛋白质数据库 UniProt 中,仅 1% 的 3600 万种酶有包括底物的高质量注释,PLMs 的最新进展导致了酶底物预测模型的开发,帮助识别小分子是否为给定酶的底物。

酶 - 底物预测模型可以是特定于蛋白质家族的或通用的,通用模型通常更准确,理想情况下在所有可用的实验验证酶 - 底物对上训练。酶底物预测(ESP)模型是第一个通用酶 - 底物预测模型,使用微调的 ESM-1b 模型生成蛋白质表征,GNN 生成任务特定的小分子表征,将两者连接并输入梯度提升二元分类器,预测准确率达 91.5%。ESM-AA 和 ProSmith 使用多模态 Transformer 在计算数值表征时促进蛋白质和小分子之间相关信息的交换,将准确率分别提高到 92.3% 和 94.2%。最近,FusionESP 通过整合对比学习生成更具判别性的底物和非底物表征,在同一测试集上将预测准确率进一步提高到 94.8%。所有方法对训练中未见的底物性能下降,例如 ProSmith 的马修斯相关系数(MCC)从训练已知底物的 0.85 下降到未见底物的 0.29。

当前酶 - 底物预测模型的真阳性率约为 80%,假阳性率约为 5%,对于功能未知的酶,若测试 200 个潜在底物候选物(其中仅一个是真正的底物),模型会错误地将约 10 个分子识别为底物,并在 80% 的时间内正确识别真正的底物。

转运蛋白的底物范围

转运蛋白仅占所有细胞蛋白的约 10%,在结构和功能方面的研究甚至比酶更少,最近的转运蛋白 - 底物预测模型评估小分子是否为给定转运蛋白底物的可能性。SPOT 模型在方法上与酶 - 底物预测模型 ESP 相似,在独立测试集上实现了 83.1% 的召回率和 88.0% 的精度,相比之下,基于朴素同源性的方法(根据三个功能已知的最相似转运蛋白分配底物)在同一测试集上的召回率为 80.9%,精度低得多(56.8%)。

药物 - 靶点相互作用

识别小分子与靶蛋白的相互作用是药物发现中的关键挑战,传统上依赖低效且昂贵的高通量筛选,人工智能的进步通过加速药物候选物的识别、改善疗效和安全性预测以及实现药物再利用来降低成本,预测准确率的微小提高可通过减少后期失败为每种药物节省数千万至数亿美元。例如,Exscientia 报告使用人工智能将成本降低 80%,开发过程加快 70%。

基于机器学习的药物 - 靶点相互作用(DTI)预测侧重于预测结合亲和力、抑制和其他关键相互作用以指导药物设计,过去两年开发并发表了许多新的预测方法。例如,ConPLex 在 PLM 衍生的嵌入上使用对比学习来区分真正的药物 - 靶点相互作用与非结合化合物;NHGNN-DTA 和 PGraphDTA 将基于 PLM 的序列数据与蛋白质结构数据结合,使用图神经网络或蛋白质接触图来完善亲和力预测;DTI-LM 和 MIFAM-DTI 则使用图注意力网络(GATs)将 ESM 蛋白质嵌入与小分子嵌入整合,所有这些方法均生成蛋白质和小分子的单独嵌入,但有些允许两种分子类型之间的信息流。

近期趋势强调蛋白质和小分子之间的直接信息交换,ProSmith 和 ESM-AA 微调多模态 Transformer 以处理共同输入序列中的两种分子类型,允许两种分子类型之间轻松直接的信息交换。

预测变体效应

蛋白质的生物工程以改善蛋白质特性或获得新功能是生物工业的关键任务,PLMs 已用于预测具有所需特性的蛋白质变体,例如,DLKcat 和 UniKP 将小分子信息与 PLMs 整合以预测酶变体的动力学参数,但研究表明,DLKcat 主要估计同一酶训练突变体的平均kcat值,而非准确预测突变效应,当评估超出该平均值的预测时,出现负相关,突显了当前基于 PLM 的模型在捕获突变对酶动力学影响方面的局限性。

另一方面,基于序列比对的方法(如 GEMME 和 SIFT)可预测突变效应,表现优于某些基于 PLM 的方法,GEMME 尚未用于预测突变对酶动力学的影响,但用于识别功能关键残基和热力学稳定性必需残基的相关任务,最近将 GEMME 与 PLMs 结合的努力进一步提高了预测性能,可能为改善突变对动力学参数影响的预测提供有希望的途径。

讨论


成功的蛋白质 - 小分子相互作用预测模型的发展主要取决于两个关键组成部分:训练数据集和模型架构(包括分子表征方法)。尽管已测序超过 2 亿蛋白质,可成功用于 PLMs 的无监督预训练,但对于下游预测任务,当前模型通常受限于训练数据的数量和质量不足。例如,Bar-Even 等人发现,BRENDA(实验KMkcat值的主要资源)中高达 20% 的条目与其参考文献不同,可能由于复制错误和单位误解,除明显错误外,动力学参数的测量可能高度可变,在大型动力学数据库中,同一酶 - 反应对的kcat值在不同实验室的测量之间通常相差数倍。

为准确评估模型性能,重要的是评估其对未见蛋白质的泛化能力,这需要仔细构建测试集,简单随机分割数据可能产生误导,尤其是当数据集包含许多相关蛋白质(如酶变体)时,在测试集中包含与训练集中蛋白质高度相似的蛋白质会夸大性能指标,同时掩盖对真正新蛋白质的预测能力差,如某些模型在测试不同序列时表现比基线比较更差所示,因此,为确保公平评估泛化能力,测试集理想情况下应包含与训练中使用的任何蛋白质最大序列相似性低(如低于 20-40%)的蛋白质。

蛋白质 - 小分子相互作用预测模型构建中的一个重要选择是蛋白质编码方法,尽管趋势倾向于更大的模型(如 ESM 系列从 ESM-1b 的 6.5 亿参数增长到 ESM-2 的 150 亿和 ESM-3 的 980 亿),但最近证据表明性能提升可能趋于平稳。比较具有广泛参数范围的模型(包括 ESM-2 家族)的研究发现,中等大小的模型在许多生物学基准上表现与更大的模型一样好,例如,对于预测突变适应性效应,具有 1.5 亿参数的 ESM-2 模型比参数大 20 倍(30 亿参数)的 ESM-2 变体表现略

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号