《Advanced Science》:Accurate Identification of Protein Binding Sites for All Drug Modalities Using ALLSites
ABSTRACT
蛋白质通过与多种分子模式相互作用在细胞过程中发挥重要作用,然而其结合位点识别不完整导致蛋白质组范围内的可成药性未被充分探索。尽管已开发多种计算方法预测蛋白质结合位点,但现有方法受限于对单一药物模式的特异性、对高质量结构数据的依赖或预测精度不足。本研究构建了统一的基于序列的框架ALLSites,用于识别所有药物模式的蛋白质组范围结合位点。利用ESM-2嵌入,ALLSites整合门控卷积网络与Transformer架构,从序列中直接捕获全局和局部序列特征,有效模拟残基相互作用。该设计弥合了基于序列和基于结构方法之间的差距,使ALLSites在包括蛋白质、多肽、小分子、碳水化合物、DNA和RNA在内的多种药物模式中实现卓越预测性能。它在基于序列方法中达到最先进性能,并匹配最佳基于结构工具的准确性。通过实现跨所有药物模式的准确且无需结构的结合位点预测,ALLSites有望扩展可成药蛋白质组并为药物发现提供强大资源。
1 Introduction
蛋白质在细胞过程中发挥重要作用,但蛋白质的可成药性仍很大程度上未被探索,小分子仅能调节不到15%的人类蛋白质组。研究人员开始探索替代药物模式,包括基于蛋白质、多肽、核酸和碳水化合物的疗法来调节蛋白质功能。因此,全面识别所有药物模式的结合位点至关重要,因为它可以通过将一种模式下"不可成药"蛋白质重新定义为另一种模式下"可成药"来极大扩展蛋白质组可成药性。药物模式的多样性和复杂性对实验鉴定蛋白质结合位点提出了巨大挑战。作为回应,大量努力致力于开发计算方法来预测各种药物模式的蛋白质结合位点。
计算方法根据输入要求分为基于结构和基于序列两类。现有方法在准确识别和区分蛋白质组范围内所有药物模式的结合位点方面仍面临挑战。首先,现有方法存在高度依赖精确结构或预测精度低的问题。具体而言,基于结构方法的应用受限于高分辨率结构的低可用性以及对结构错误的高敏感性。相比之下,基于序列方法提供更广泛适用性,但由于忽略残基相互作用信息而遭受次优预测性能。其次,大多数现有方法专为模式特异性结合位点预测而设计,尚无能够预测所有药物模式结合位点的通用方法。目前,仅少数方法支持多种模式的结合位点预测。现有方法的蛋白质组/模式覆盖不足和性能差阻碍了其实际应用。因此,迫切需要开发能够准确预测所有药物模式的蛋白质组范围结合位点的方法。
本研究考虑到各种药物模式结合位点的关键特征固有地编码在蛋白质序列中,构建了统一的基于序列框架ALLSites,用于识别所有药物模式的蛋白质组范围结合位点。基于蛋白质语言模型ESM-2进行序列嵌入,ALLSites整合门控卷积网络与Transformer架构,共同学习全局序列特征和局部上下文模式。此外,它能够直接从序列数据模拟复杂残基相互作用,从而弥合基于序列和基于结构方法之间的差距。ALLSites实现对各种药物模式(包括蛋白质、多肽、小分子、碳水化合物、DNA和RNA)的准确蛋白质结合位点预测,同时保持广泛适用性。它在这些药物模式上展示最先进性能,超越所有基于序列方法并实现与最佳基于结构方法相当的结果。准确性和适用性之间的平衡使ALLSites成为推进蛋白质组范围可成药性理解和加速各种分子模式向临床应用转化的重要资源。
2 Results and Discussion
2.1 The Framework of ALLSites for Predicting Binding Sites of All Drug Modalities
为准确识别所有药物模式的蛋白质结合位点,基于Transformer架构设计了统一深度学习框架ALLSites。首先,模型以蛋白质序列为输入,采用强大PLM ESM-2生成残基级嵌入。接下来,这些嵌入被馈送到包含GatedCNN的编码器。编码器功能是提取每个残基的局部上下文模式并将其集成以形成蛋白质的全局序列特征。随后,原始残基嵌入和编码器提取的全局序列特征传递到修改的Transformer解码器。该解码器结合交叉注意力机制并调整原始Transformer的掩码操作以确保学习整个蛋白质长度。多头交叉注意力机制使ALLSites能够捕获每个残基与序列中其他残基之间的相互作用。最后,解码器输出的嵌入被馈送到由全连接层组成的分类器,预测每个残基成为不同药物模式结合位点的概率。ALLSites从蛋白质序列学习多样残基特征的能力使其成为识别所有药物模式蛋白质组范围结合位点的统一框架。
2.2 Evaluation of ALLSites in Identifying Binding Sites of Proteins/Peptides
识别PPI位点和PepPI位点对于开发生物制剂如基于蛋白质和多肽的疗法至关重要。为全面评估ALLSites在识别蛋白质和多肽结合位点方面的性能,使用了四个常用PPI位点基准数据集和两个PepPI位点基准数据集。
在PPI-Test70数据集上,ALLSites在AUROC、AUPRC、F1和MCC指标上一致表现最佳,超越所有基于序列和基于结构方法。特别地,与第二佳方法EnsemPPIS相比,ALLSites在AUROC和AUPRC上分别提高5.0%和8.1%。在F1和MCC上,ALLSites分别提高0.034和0.042。在另一广泛使用的PPI位点预测任务(使用PPI-Test355作为测试集)中,ALLSites仍展示优于所有基于序列方法的性能,在所有指标中取得最高分。ALLSites在AUROC和AUPRC上分别比EnsemPPIS高6.9%和24.6%,在F1和MCC指标上分别高0.081和0.096。
此外,ALLSites在PPI-Test60和PPI-Test315数据集上评估。在关键指标AUROC和MCC方面,ALLSites一致以较大幅度优于所有基于序列方法,并实现与最佳基于结构方法RGN相当的性能。相比之下,第二佳基于序列方法EnsemPPIS在MCC方面一致表现不如基于结构方法GraphPPIS和RGN。值得注意的是,在PPI-Test60数据集上,ALLSites显示比MaSIF-site略好的性能,后者使用先进几何深度学习从蛋白质结构学习表面特征。ALLSites在这些两个测试数据集上实现低于0.25的Brier分数,表明其预测概率合理可靠。
在PepPI位点预测的性能评估中,ALLSites在两个任务中展示优秀预测性能。特别地,在PepPI-Test125数据集上,ALLSites在AUROC和MCC指标上优于所有基于序列和基于结构方法。在AUROC方面,ALLSites超越所有基于序列方法并略微超过最佳基于结构方法PepNN-Struct。关于MCC指标,ALLSites优于所有基于结构方法,仅比最佳执行方法PepBCL低0.002。在PepPI-Test639上,ALLSites一致排名第二,突出其强大鲁棒性。这些发现证明ALLSites能够准确识别蛋白质上的PepPI位点,为推进多肽药物发现和设计提供宝贵工具。
2.3 Evaluation of ALLSites in Identifying Binding Sites of Small Molecules/Carbohydrates
小分子是批准疗法中最普遍的分子模式,使得识别蛋白质上潜在SMPI位点对于开发新型小分子药物至关重要。为评估ALLSites在预测SMPI位点方面的性能,基于sc-PDB数据库构建了新的SMPI位点基准数据集,包含2,324个非冗余蛋白质。ALLSites在SMPI-Test348数据集上在准确度、召回率、精确度、F1和MCC所有五个指标上优于P2Rank。特别地,ALLSites实现F1、MCC和召回率分数分别为0.601、0.560和0.593,比P2Rank提高0.151、0.136和0.232。
在蛋白质水平性能评估中,ALLSites在66.4%案例中实现比P2Rank更高的MCC值。ALLSites预测的结合位点更接近真实结合口袋,而P2Rank展示显著更高数量的假阴性预测。值得注意的是,ALLSites在不使用任何结构信息情况下实现比成熟P2Rank算法更优性能,突出其从序列 alone 提取结合位点特征的强大能力。
碳水化合物分子部分属于小分子类别。然而,碳水化合物的独特化学性质,尤其是其丰富羟基,产生与典型小分子根本不同的结合位点。因此,有必要评估ALLSites在识别CarbPI位点方面的性能。ALLSites在平均DICE、精确度、召回率和MCC方面优于所有三种方法。ALLSites性能显著高于FTMap,平均DICE和MCC值分别提高0.258和0.381。FTMap的较差性能可归因于其设计用于一般小分子口袋预测,因为它不是专门为识别CarbPI位点而定制的。这些结果进一步证实碳水化合物结合位点与常规小分子结合位点明显不同的事实。此外,ALLSites高度可移植,可适应其他小分子药物模式,如共价结合位点预测。
2.4 Evaluation of ALLSites in Identifying Binding Sites of Nucleic Acids
核酸-蛋白质相互作用在众多基本细胞过程(如DNA复制、转录和翻译)中起关键作用。阐明这些相互作用的分子机制,包括表征蛋白质上DNA和RNA结合位点,可促进开发治疗由蛋白质和核酸之间异常调节引起疾病的药物。
在DPI位点预测任务中,ALLSites在两个测试集上在AUROC和MCC指标上显著优于所有基于序列方法和大多数基于结构方法。与最佳执行基于序列方法相比,ALLSites在DPI-Test129和DPI-Test181上在AUROC方面分别提高9.7%和12.6%,在MCC方面分别提高0.148和0.150。尽管ALLSites显示比最佳执行基于结构方法GraphBind略低的MCC分数,它在两个测试集上实现相当AUROC性能。
在RPI位点预测的基准测试任务中,ALLSites性能与DPI位点预测观察结果一致,优于所有基于序列方法和大多数基于结构方法。具体地,ALLSites在AUROC和MCC指标中排名第二,AUROC值与最佳执行基于结构方法GraphBind相当。这些发现提供有力证据表明ALLSites能够仅从蛋白质序列准确识别核酸结合位点。
尽管ALLSites在DPI和RPI位点预测任务中一致显示比最佳执行基于结构方法GraphBind略低性能,但由于其仅依赖序列信息,它在整个蛋白质组中提供更广泛适用性。该优势显著,因为基于结构方法受限于高分辨率结构的低可用性及其对结构错误的高敏感性。具体而言,仅约35%人类蛋白质具有实验确定晶体结构,且在多数情况下,这些结构仅覆盖完整序列的片段。此外,尽管先进蛋白质结构预测工具(如AlphaFold2和RoseTTaFold)可部分缓解结构数据稀缺,预测和天然结构之间固有偏差通常显著降低基于结构预测方法的性能。
为阐明基于结构方法的局限性,评估了AlphaFold2预测结构对GraphBind使用DPI-Test129和DPI-Test181数据集的影响。GraphBind在使用预测结构而非实验解析结构时在所有三个指标(AUROC、AUPRC和MCC)上展示明显性能下降。在DPI-Test129数据集上,GraphBind的AUROC和AUPRC降至低于ALLSites,MCC值变得与ALLSites相当。在DPI-Test181上,使用预测结构导致GraphBind在所有三个指标上表现不如ALLSites。这些结果证实基于结构方法对结构错误高度敏感,即使最先进结构预测工具也不能完全补偿实验解析结构稀缺施加的限制。
ALLSites展示非常快的推理速度。在单个NVIDIA V100 GPU上,它可在16小时内筛选整个人类蛋白质组(包含UniProt数据库的20,420个已审查人类蛋白质)。平均而言,每个蛋白质需要2.81秒,每个残基仅需0.0075秒。总之,鉴于其仅依赖蛋白质序列及其快速推理速度,ALLSites非常适合蛋白质组范围映射所有药物模式的结合位点。
3 Materials and Methods
3.1 Dataset Collection and Data Processing
本研究使用四个常用PPI位点预测基准数据集和两个PepPI位点预测基准数据集评估ALLSites在识别蛋白质和多肽结合位点方面的性能。
第一个PPI位点基准(PPI-Train352和PPI-Test70)源自DeepPPISP,最初从PDB通过六步数据过滤过程策划。两个数据集包含序列同源性低于25%的蛋白质,确保模型训练和评估中的低冗余。表面残基如果其绝对溶剂可及性在蛋白质结合后减少至少1.0 ?2则被注释为PPI位点。从PPI-Train352随机选择50个蛋白质子集形成保留验证集。第二个PPI位点基准(PPI-Train9982和PPI-Test355)由DELPHI收集。PPI-Test355数据集基于BioLip数据库构建,包含355个非冗余蛋白质,成对序列相似性低于25%。如果来自不同链的任何两个原子之间的距离小于0.5 ?加上其范德华半径之和,则残基被注释为PPI位点。PPI-Train9982数据集从先前研究收集,所有蛋白质显示与PPI-Test355集中那些低于25%序列相似性。从PPI-Train9982随机选择1,110个序列形成验证集,而剩余序列用于模型训练。PPI-Train9982数据集缺乏结构注释,因此不适合训练基于结构PPI位点预测方法。第三个PPI位点基准(PPI-Train335和PPI-Test60)由GraphPPIS构建。两个数据集中的序列也显示低于25%序列相似性。为确保公平比较,PPI-Train335和PPI-Test60数据集与GraphPPIS研究中使用的相同。此外,在PPI-Train335上训练的模型也在PPI-Test315数据集上评估,这是先前发布的数据集,包含与PPI-Train335中那些低于25%序列同一性的蛋白质。
两个PepPI基准数据集直接从前人研究采用。第一个基准(PepPI-Train1154和PepPI-Test125)最初在SPRINT-Str研究中引入。第二个基准(PepPI-Train640和PepPI-Test639)也源自先前工作。两个基准经历类似预处理流程,训练和测试集之间序列同一性使用BLAST包中BLASTClust减少至最大30%以确保可靠性能评估。
为评估ALLSites在识别小分子结合位点方面的性能,构建了新的SMPI位点预测基准数据集。首先,从sc-PDB数据库下载17,594个小分子-蛋白质复合物结构。根据sc-PDB定义,如果蛋白质残基的任何原子位于配体原子6.5 ?内,则被视为结合位点。根据先前研究采用的协议,将相同蛋白质多个PDB条目的结合位点注释映射到其相应UniProt序列,产生4,993个独特蛋白质序列。为避免性能评估偏差,使用BLASTClust算法将序列同一性减少至30%。这产生非冗余集2,324个蛋白质。从该集随机选择348个蛋白质形成独立测试数据集(SMPI-Test348),而剩余1,976个蛋白质构成训练集。此外,从SMPI-Train1976额外随机选择348个蛋白质形成验证集(SMPI-Valid348),留下1,628个蛋白质作为最终训练集(SMPI-Train1628)用于模型训练。
CarbPI位点预测的基准数据集从CAPSIF研究获得。它包含517个蛋白质用于训练(Carb-Train517),129个用于验证(Carb-Valid129),和162个用于独立测试(Carb-Test162)。该基准中所有蛋白质结构分辨率低于3.0 ?,任何两个蛋白质之间序列同一性低于30%。如果残基的任何重原子在结合碳水化合物重原子4.2 ?内,则残基被定义为CarbPI位点。
收集两个DPI位点预测基准数据集和一个RPI位点基准数据集评估ALLSites在识别核酸结合位点方面的性能。
第一个DPI位点预测基准数据集(DPI-Train573和DPI-Test129)从GraphBind研究采用。DNA结合蛋白质最初从BioLip数据库策划,并经过一系列过滤步骤处理,产生训练集中573个蛋白质和独立测试集中129个。训练和测试集中蛋白质之间序列同一性低于30%。如果残基与DNA分子最短原子距离小于0.5 ?加上两个最接近原子范德华半径之和,则残基被定义为DPI位点。另一个DPI位点预测独立测试数据集DPI-Test181从先前研究收集。DPI-Test181中蛋白质与DPI-Train573训练集中那些共享低于30%序列同一性,实现无偏评估。因此,在DPI-Train573上训练的模型也在DPI-Test181上评估以验证其泛化能力。
RPI位点预测基准数据集(RPI-Train495和RPI-Test117)也从GraphBind研究获得。数据预处理流程和结合位点定义标准与应用于DPI-Train573和DPI-Test129数据集保持一致。RPI-Train495(495个蛋白质)和RPI-Test117(117个蛋白质)中蛋白质之间序列同一性也低于30%,确保最小序列冗余和可靠评估。
值得注意的是,类不平衡在所有基准数据集中普遍存在,其中非结合位点数量超过结合位点数量。所有基准任务的数据集统计总结在支持信息表S15中,包括蛋白质计数、结合和非结合残基数量,以及所有残基中结合残基比例。
3.2 Protein Representation
蛋白质序列使用ESM-2表示,这是一种基于Transformer的蛋白质语言模型,在6500万蛋白质序列上预训练,具有30亿参数。ESM-2利用大规模自监督预训练在分子水平提取语义知识,能够推断与生物语义一致的深度嵌入。选择该语言模型是因为其能够捕获蛋白质序列内进化信息和复杂结构模式,无需明确结构数据。对于每个蛋白质序列,使用ESM-2提取残基级特征,每个氨基酸表示为2560维特征的固定维向量。这为每个残基位置提供丰富、上下文感知表示,这对准确结合位点预测至关重要。
3.3 Model Architecture of ALLSites
ALLSites是用于蛋白质结合位点预测的新型深度学习框架,具有编码器-解码器架构,增强有交叉注意力机制。其框架包含三个关键组件:(1)蛋白质特征编码器,(2)交叉注意力解码器,和(3)分类模块。通过捕获局部和全局蛋白质特征以及残基相互作用特征,ALLSites能够识别所有药物模式的潜在结合位点。
蛋白质特征编码器从蛋白质序列提取有意义的表示。编码器结构如图所示。最初,编码器通过全连接层映射输入蛋白质特征以获得维度dhid的隐藏表示。映射特征然后通过一系列具有门控线性单元激活函数的一维卷积层处理。具体地,编码器包含n个卷积层,每个具有核大小k和填充(k-1)/2以维持序列长度。每个卷积层产生维度2×dhid的输出,然后通过GLU激活函数处理以获得维度dhid的输出。
为促进梯度流经网络,采用残差连接,结合每个卷积层输入和输出与缩放因子。层归一化应用于最终输出以稳定训练过程。
解码器处理编码的全局蛋白质特征,同时关注残基相互作用。解码器架构包含多个解码器层,每个具有交叉注意力机制和位置前馈网络,两者均通过残差连接和层归一化增强。在解码器层中,局部蛋白质特征首先经历自注意力以捕获局部序列内内部关系。交叉注意力机制使模型能够关注可能参与结合相互作用的残基相互作用。随后,位置前馈网络(包含两个卷积层,其间有ReLU激活)增强模型表示能力。
交叉注意力机制是关键组件,使模型能够捕获潜在结合位点与其他蛋白质残基之间长程依赖关系。实现遵循多头注意力范式,其中注意力在多个表示子空间中并行计算。对于每个注意力头,从输入特征计算查询(Q)、键(K)和值(V)。注意力分数计算为查询和键之间的缩放点积,随后进行softmax归一化。
获得处理的局部相互作用表示后,采用显著性加权聚合策略结合所有局部特征信息。每个局部特征表示的范数用于计算softmax归一化显著性分数,然后用于加权其最终表示Hagg的贡献。计算公式显示在方程中。
聚合表示通过一系列具有ReLU激活的全连接层传递以预测结合概率。
3.4 Model Training and Implementation
ALLSites在结合位点分类任务上使用加权交叉熵损失函数训练。由于所有预测任务中结合残基数量显著大于非结合残基数量,为结合残基分配更高损失权重可增强模型预测它们的能力。在本研究中,每个任务的损失权重被视为超参数并相应优化。所有任务使用的最终损失权值在表S15中提供。权重损失在模型训练前设置并在整个训练过程中保持固定。加权交叉熵损失的计算公式显示在方程中。
为增强训练稳定性和收敛性,采用RAdam优化器结合Lookahead优化技术。正则化方法(包括dropout和权重衰减)应用于提高泛化能力。对于每个药物模式的结合位点,ALLSites使用相应结合位点数据集单独训练。在每个预测任务中,除非另有规定,ALLSites采用与竞争方法相同的训练方案。
具体地,对于PPI-Test70、PPI-Test355、SMPI-Test348和CarbPI-Test162,模型在各自训练集上训练,在相应验证集上评估以进行超参数调整,最佳性能模型最终在测试集上评估。对于PPI-Test60和PPI-Test315,首先在PPI-Train335数据集上执行五折交叉验证以确定最佳超参数。最后,使用这些最佳超参数在整个PPI-Train335数据集上重新训练模型,模型性能分别在PPI-Test60和PPI-Test315上评估。两个PepPI位点预测任务的模型训练方案与数据集来源的原始研究一致。对于PepPI-Train1154,执行十折交叉验证以识别最佳超参数。随后,使用最佳超参数在整个PepPI-Train1154数据集上重新训练模型并在PepPI-Test125数据集上评估。对于PepPI-Train640,首先从训练集保留128个蛋白质随机子集形成验证集,用于超参数选择。然后最佳性能模型的性能在PepPI-Test639测试集上评估。对于DPI-Train573和RPI-Train495,遵循GraphBind中描述的训练方案,训练集随机分割为训练和验证子集,比例8:2。该分割和训练过程重复十次以生成十个独立模型。每个模型的性能在各自测试集(DPI-Test129、DPI-Test181或RPI-Test117)上评估。ALLSites在这些测试集上报告性能代表十个模型平均性能。在所有任务中采用早停策略,耐心十轮,以减轻过拟合。
ALLSites配置有一系列设置。隐藏维度(dhid)为128;编码器层数为3;解码器层数为3;注意力头数为8;位置前馈网络中隐藏维度为256;Conv1D核大小为7;权重衰减设置为1E-4。此外,四个最有影响超参数(包括批大小、学习率、dropout率和损失权重)基于模型在验证数据集上预测性能进行优化。鉴于每个残基作为单独样本产生的大数据集大小,ALLSites支持分布式训练以加速模型训练。ALLSites在Python 3.10和Pytorch 1.12.0中实现。所有模型在Intel(R) Xeon(R) Gold 6132 CPU @ 2.60GHz、NVIDIA(R) Tesla(R) V100 32GB GPU和263GB RAM平台上开发,操作系统为CentOS Linux release 7.9.2009 (Core)。
3.5 Evaluation Metrics
使用多个评估指标评估模型性能,包括准确度(ACC)、精确度、召回率、接收者操作特征曲线下面积(AUROC)、精确度-召回率曲线下面积(AUPRC)、F1分数和马修斯相关系数(MCC)。由于结合位点数据集固有类不平衡,MCC指标是特别重要指标,因为它提供考虑数据不平衡的稳健评估。对于两个测试集PPI-Test60和PPI-Test315,基于Brier分数进一步执行ALLSites校准分析。据报道Brier分数范围从0到1,Brier分数低于0.25表明模型预测可靠。此外,为CarbPI位点预测任务计算Dice相似系数(DSC)。与其他任务不同,CarbPI性能评估涉及计算每个单独蛋白质的指标,然后在整个测试集上平均这些结果。所有指标使用Scikit-learn计算。计算这些评估指标的公式在支持信息中提供。
表S16明确记录了所有基线方法在评估任务中评估性能来源。通常,对于通过重现其源代码获得结果的方法,采用与ALLSites相同的训练和评估数据分割以及相同训练协议。对于某些方法,结果主要从其各自Web服务器检索,因为其源代码不可公开用于重新训练。对于其他方法,报告性能值直接从原始文献提取,因为这些研究使用与ALLSites相同的训练数据和训练方案,从而确保公平比较。
3.6 Statistical Analysis
在本工作中,ALLSites在DPI-Test129、DPI-Test181和RPI-Test117数据集上的基准结果从十次独立运行获得。结果以平均值±标准差(SD)呈现。