基于迭代共识算法的蛋白质-蛋白质对接模型集成中正确解比例提升方法研究

【字体: 时间:2025年10月15日 来源:Protein Science 5.2

编辑推荐:

  本文介绍了一种名为Iter-CONSRANK的迭代共识评分算法,旨在提升蛋白质-蛋白质对接模型集成中正确解的比例。该算法基于成熟的CONSRANK方法,通过迭代过滤低排名模型,显著提高了中等难度靶标的正确解比例(最高达8倍),并在Top-1排名中优于150多种评分函数,为蛋白质复合物结构预测提供了有效的预处理和独立评分工具。

  
1 引言
蛋白质相互作用在细胞中形成复合物,在信号转导、细胞代谢、电子传递和免疫反应等生物过程中发挥关键作用。蛋白质的生物学功能实际上由其相互作用定义,这些相互作用的扰动可能导致缺陷表型。研究蛋白质-蛋白质相互作用在分子生物学和医学中至关重要,其中三维结构的可获得性对于理解这些相互作用至关重要。然而,迄今为止,实验结构仅适用于少数特征化的功能组装体。在这种情况下,计算方法通过建模在丰富结构已知蛋白质组装体景观方面发挥关键作用。
传统上,预测蛋白质复合物结构的方法是分子对接,可以是基于模板或从头算方法。在从头算方法中,仅使用单独蛋白质组分的序列/结构作为输入,而模板方法使用相关的蛋白质复合物结构作为模板。过去20年来,对接社区有机会在CAPRI(预测相互作用的临界评估)实验中盲目测试其预测蛋白质-蛋白质复合物的算法。在2020年的第14届CASP中,深度学习(DL)方法AlphaFold2通过预测单链蛋白质结构达到与实验方法相当的准确性,引入了该领域的突破。从那时起,基于DL的方法在蛋白质复合物结构预测领域也预期会产生影响。这种影响在2022年夏季举行的CASP第15轮和CAPRI第54轮联合实验CASP15-CAPRI中得到了盲目评估,证实了该领域的显著进展,特别是由于现有基于DL的算法的创造性使用。然而,总体而言,仅对约40%的目标获得了高精度模型,这导致CAPRI评估者得出结论,蛋白质复合物的准确预测仍然具有挑战性。更近期,在2024年夏季,AlphaFold3以及其他预测方法的影响在CASP16-CAPRI实验中针对34个蛋白质和蛋白质-核酸复合物目标进行了评估。评估结果显示,最佳的人类预测者,不同程度地使用人工智能,可以为高达75%的目标找到良好模型,显著优于AlphaFold3服务器。在抗体和纳米抗体结合预测方面也取得了重大进展。值得注意的是,评估结果还显示,模型评分是蛋白质复合物结构预测中的一个重要方面,可能带来显著的性能提升,需要更多的发展。评分是从具有可变质量的生成模型集成中识别正确模型的能力,自2006年以来在CAPRI中实际上是一个独立的环节。在评分环节中,参与者被邀请从预测实验中生成的匿名预测复合物集成中识别正确模型。自从我们开发了自己的评分算法CONSRANK以来,我们一直作为评分者参与CAPRI实验。CONSRANK是一种纯粹的共识方法,它为在评分模型集成中观察到的每个残基间接触分配一个保守率,然后根据它们所包含接触的保守性对它们进行排名。本质上,给定模型的接触在集成中出现频率越低,其CONSRANK排名就越低。
我们的共识方法随着时间的推移在CAPRI中进行了盲目测试,证明其与该领域最先进的方法相比具有持续的竞争力。在CASP13-CAPRI轮次中,我们引入了一种新的流程,其中CONSRANK评分过程之前进行了基于接触的模型聚类,之后使用COCOMAPS网络应用程序对排名靠前的模型进行了进一步分析。这种修改后的方法使我们取得了特别令人满意的性能。
由于我们的共识方法表现良好,但也显示出进一步改进的潜力,我们在此介绍Iter-CONSRANK,这是原始算法的进一步修改。Iter-CONSRANK背后的关键思想是在CONSRANK算法中引入迭代过程。在每一步中,Iter-CONSRANK丢弃具有最低CONSRANK分数的模型,这些模型具有出现频率较低的接触,因此可能探索了不利的界面。只有最有希望的模型被保留用于下一次迭代。该过程的最终目标是通过多次迭代增加模型集成中正确解的比例,使目标成为更易于分类和评分的情况。
我们使用3K-BM5up数据集评估了这种迭代方法的性能,这是一个包含约1.6×105模型的大型且具有挑战性的数据集,这些模型是使用不同的对接软件为BM5更新版的52个目标生成的。3K-BM5up中每个目标的总模型数为3000,而正确解的数量变化极大,从1到600不等,平均值低至约6%。为了进一步测试Iter-CONSRANK的性能,我们使用了另外两个数据集:30K-BM5和Score_set。30K-BM5是一个更具挑战性的数据集,我们为BM5的所有目标生成,总共包含6.4×106个模型。Score_set是一个源自CAPRI的也具有挑战性的数据集,包括14个待评分界面,总共约2.0×104个模型,这些模型由CAPRI第13-26轮中的47个不同预测者生成。
我们根据正确解的数量将目标分为不同的类别,从“简单”到“非常困难”的情况。为了评估方法在不同实际情况下的性能,我们整体并针对每个类别讨论了获得的结果。在选择迭代的最佳参数后,性能根据每个步骤模型集成中正确解的百分比进行评估。该参数反映了方法在迭代过程中可能通过丢弃不正确解来丰富集成中正确解的能力。将正确解排名在Top-1和Top-10位置的能力也进行了评估,并与150多个公开可用的评分函数进行了比较。
我们获得的结果表明,Iter-CONSRANK是一个有前途的工具,既可以可靠地将正确模型排名在最高位置,又可以丰富模型集成中的正确解,使目标成为更容易的情况,可能进一步接受其他分析和/或评分过程。最后,详细展示了一个目标输出作为示例案例,说明用户如何利用该方法获得对感兴趣案例的更深入洞察。我们将软件在Zenodo和GitHub上公开提供,供用户应用于他们自己的模型集成。
2 方法
Iter-CONSRANK在原始共识评分算法CONSRANK中引入了迭代过程。Iter-CONSRANK将待评分模型集成、相应的链标识符、截止值以及要执行的迭代次数作为输入。在每次迭代中,该方法使用CONSRANK对模型进行评分,并仅保留排名前C·100%位置的模型用于下一次迭代,与起始模型数量无关。因此,Iter-CONSRANK在每次迭代时减少分析的模型数量,丢弃得分最低的100(1?C)%的模型。测试了C的不同值:0.80、0.85、0.90、0.95。基于获得的结果,我们报告并讨论了截止值C=0.85时获得的结果。
此外,我们还测试了要执行的迭代次数Niter的不同阈值。为了尽可能探索方法的潜力,Niter最多变化到30。在第30步,截止值为0.85时,模型数量减少到原始数量的约1%:特别是,3K-BM5up数据集的目标每个剩下27个模型,而Score_set的目标平均剩下13±5个模型。该软件可在Zenodo和GitHub上获得。
为了测试Iter-CONSRANK的性能,我们使用了来自三个公共基准测试的总共约6.6×106个模型,涉及226个目标:3K-BM5up、30K-BM5和Score_set。这些都是高度不平衡的数据集,因此对评分目的特别具有挑战性。
3K-BM5-up和30K-BM5数据集由我们生成并提供给社区,分别包含来自蛋白质-蛋白质对接基准版本5更新的52个目标的每个3000个模型,以及BM5的213个目标的每个30000个模型,总计156,000和6,390,000个模型。模型是使用三种不同的对接软件生成的:HADDOCK、FTDock和ZDock。3K-BM5-up每个目标的3000个模型中正确解的数量在1到600之间,而不正确解是从30K-BM5的更大集成中随机选取的。3K-BM5-up和30K-BM5中每个目标模型集成中正确解的平均百分比分别为5.8±6.4和0.8±1.2。在3K-BM5-up目标中,19个目标的%corr低于1%,12个落在1%–5%范围内,8个落在5%–10%范围内,13个落在10%–20%范围内。在第30次迭代且截止值C=0.85时,模型数量减少到每个目标27个模型。在30K-BM5目标中,153个目标的%corr低于1%,56个落在1%–5%范围内,4个落在5%–10%范围内。在第30次迭代且截止值C=0.85时,模型数量减少到每个目标272个模型。
第三个基准测试Score_set由CAPRI评估者提供。我们在这里选择了该数据集的版本1。Score_set包括15个目标,其模型由参与CAPRI第13-26轮的47个不同预测者生成。在这15个目标中,只有13个至少存在一个正确解,因此在这里考虑。由于其中一个目标T40呈现两种不同的关联模式,这总共有14个待评分界面。每个目标的平均模型数为1427±511,范围在499到2180之间。每个目标正确解的百分比变化很大,从T30的0.2%到T47的57%,平均值分别为9.9%和15.2%。在这些目标中,3个目标的%corr低于1%,3个落在1%–5%范围内,5个落在5%–10%范围内,3个高于10%。在第30次迭代且截止值C=0.85时,模型数量平均减少到13±5个。
对接模型的质量按照CAPRI方案进行评估。基于与相应实验结构的比较,模型根据CAPRI实验采用的标准分为四个质量递增的类别:不正确、可接受、中等和高。然而,为了简单起见,在大多数性能分析中使用了二元分类,将可接受、中等和高质量模型包括在“正确”类中。
为了评估Iter-CONSRANK在模型评分及其丰富诱饵集正确解能力方面的性能,我们采用了几个指标。第一个指标是每次迭代时正确解的百分比,%corr(i),对每个目标计算定义。此外,我们还计算了每次迭代时正确模型的富集度enrich(i)。为了比较所有目标在不同迭代时的整体方法性能,还计算了所有目标平均的%corr,即Av%corr(i)。我们用来评估方法性能的其他指标是Top-1和Top-10成功率,%STop1(i)和%STop10(i),分别是至少有一个正确解排名第1位或前10位的目标百分比。这些指标特别是CAPRI实验中用于对对接和评分组进行排名的指标。
我们使用了来自公共资源的总共157个描述符。在使用的特征中,92个来自CCharPPI服务器,主要包括基于物理或经验的能量项;32个由CONSRANK和COCOMAPS计算,包括共识CONSRANK得分和每类涉及氨基酸的残基间接触数;28个来自CIPS,代表界面处不同类别残基的CIPS得分的总和和平均值;3个代表使用FreeSASA计算的埋藏表面积;2个是非相互作用表面项,由Prodigy计算。为了将Iter-CONSRANK与上述评分函数进行比较,使用了Top-1和Top-10成功率。
3 结果与讨论
为了评估Iter-CONSRANK的性能,我们将其应用于3K-BM5up,这是一个包含52个目标模型的数据集,这些模型使用三种不同的对接软件生成。该数据集包含大量模型,每个目标具有相同数量的模型,且正确解数量变化很大,用于微调最佳迭代参数并通过不同指标进行详细的性能分析。调整后的协议随后在30K-BM5上进行了测试,这是一个由我们生成的213个BM5目标的更大数据集,以及Score_set,这是一个基于CAPRI的数据集,包括14个待评分界面,总共约20,000个模型,由CAPRI第13-26轮中的47个不同预测者生成。该数据集用于评估方法在未见数据上的性能。
为了比较,我们根据模型集成中正确解的百分比将目标分为不同的难度类别。正确解百分比高于10%的目标被视为“简单”情况,正确解在5%到10%之间的为“中等”情况,在1%到5%之间的为“困难”情况,低于1%的为“非常困难”情况。根据此分类,3K-BM5up数据集包含19个“非常困难”、12个“困难”、8个“中等”和13个“简单”目标。30K-BM5有153个“非常困难”、56个“困难”、4个“中等”和0个“简单”目标,而Score_set包括3个“非常困难”、3个“困难”、5个“中等”和3个“简单”目标。因此,所有上述数据集,尤其是30K-BM5,都可以被认为是相当具有挑战性的,偏向于困难情况。
Iter-CONSRANK迭代应用的最终目标是增强诱饵集成中正确解的比例,并可能将正确解排名靠前。因此,为了优化迭代过程的截止值,我们选择每次迭代时诱饵集成中正确解的百分比作为评估方法性能的主要指标。我们测试了迭代过程的四种不同截止值C:0.80、0.85、0.90和0.95,对应于将排名前80%、85%、90%和95%位置的模型提升到下一次迭代。此过滤最多应用了30次迭代。结果显示,截止值为0.85时,在第27次迭代达到了最大Av%corr值41.1,相对于初始值5.8增加了7倍。在第27次迭代之后,Av%corr值在第30次迭代下降到40.4。对于0.80的截止值,趋势更加明显,最大Av%corr值37.7在第19次迭代达到,然后缓慢持续下降到第30次迭代的36.6。显然,对于0.90和0.95的截止值,在探索的步数内未达到Av%corr的最大值,因为过滤率太低,有太多模型被提升到下一次迭代。由于0.85的截止值在Av_%corr方面取得了最佳性能,并在探索的迭代内达到峰值,我们选择它作为默认截止值。下面,我们将详细展示和讨论截止值为0.85时的结果,表示为Iter-CONSRANK85。
Iter-CONSRANK85在%corr(i)方面的结果针对52个3K-BM5up目标进行了报告。52个目标平均的Av%corr值在第1次迭代时取较低值5.8,强调了数据集的高度不平衡性,其中不正确解的数量远多于正确解,使其对分类和评分目的特别具有挑战性。如前所述,整体最大Av%corr 41.1在第27次迭代达到。然而,当分别分析不同难度水平的目标时,我们观察到这个最大值很大程度上取决于方法在困难、中等和简单目标上的成功。对于它们,Av%corr确实从第22步到第30步达到并维持了高于21、61和91的平均值,而对于非常困难的目标,在第20步达到最大值0.61后,Av%corr迅速下降,在第23步达到零。在第27次迭代时,当每个目标只剩下初始3000个模型中的44个时,困难、中等和简单目标的Av%corr值分别高达33%、62%和95%,使它们平均都变成了非常简单的情况。然而,当考虑19个非常困难的目标时,在第22次迭代之后,它们剩下的正确解为零。由于在实际场景中我们可能不知道所处理目标的难度水平,一个合理的折衷方案是在第20次迭代停止,此时每个目标剩余的模型数量约为初始数量的5%。在这一步,非常困难的目标达到其最大Av%corr 0.61,而中等和简单的目标则非常接近其最大值。我们在困难目标上损失了一些性能,它们在迭代20时的Av%corr是16.8,而最大值是33.1。然而,我们注意到迭代20时的值16.8相对于初始Av%corr值2.8增加了6倍,并意味着目标的分类从困难变为简单。
在观察到迭代过程中强富集性的BM5目标中,有人干扰素α-2与干扰素α/β受体2的复合物。该目标的初始诱饵集包含58个正确解,占总模型的1.9%,将其归为我们的困难情况。在迭代20时,剩余138个模型中有56个是正确解,到迭代30时进一步改善为26个模型中有25个正确解。该目标迭代效果的详细信息已报告。该目标在迭代1时的共识图以不正确的接触为特征,存在显著的背景噪声,正确的界面混杂其中。在连续的迭代中,噪声逐渐减少,使得天然接触显现出来。结果,在迭代20时,形成了一个类天然界面,与X射线结构非常相似。对排名靠前模型的分析显示,直到迭代10,前10位中没有正确解,在迭代15时增加到3个正确解,在迭代20时增加到7个。与之前的研究一致,这种显著改进可归因于即使不正确的模型也可能包含正确的接触。事实上,尽管集成中正确模型的比例很小,但两个天然接触已经存在于初始模型集中前10个最频繁的接触中,特别是在IFNAR2的Ser96与IFNa2的Phe27之间,以及IFNAR2的Asn98与IFNa2的Arg22之间。这两个接触在所有迭代步骤中始终位于前10个最频繁接触之列,它们的保守率从迭代1的约4.0%逐渐增加到迭代5、10和15的约8.0%、17%和高达36%。在迭代20时,Ser96-Phe27接触是最常观察到的,保守率为70.3%,而Asn98-Arg22接触是第三频繁的,保守率为57.2%。因此,这两个接触被集成中的绝大多数模型所共享。这两个接触显然有助于为正确解分配足够高的CONSRANK排名,使它们能够进入下一次迭代。这允许逐步消除不正确的模型,同时定义天然界面,从而丰富集成中的正确解。
成功率,即在排名靠前位置定位正确解的能力,也进行了评估,因为这是蛋白质-蛋白质对接模型评分的标准,在CAPRI中作为主要标准采用。我们报告了Iter-CONSRANK85迭代步骤上的成功率,以至少有一个正确解排名Top-1和Top-10位置的目标百分比表示。初始模型集成中排名正确解为Top-1和Top-10位置的目标百分比相当高,分别为36.5%和38.5%。在Iter-CONSRANK85迭代过程中,它们进一步增加,在迭代20时Top-1和Top-10的值分别为40.4%和42.3%。为了将Iter-CONSRANK85与其他可用评分函数进行性能比较,我们将157个公开可用的评分函数应用于我们的3K-BM5up数据集,计算每个函数能将正确解排名Top-1和Top-10位置的目标数量。结果显示,Iter-CONSRANK85在Top-1方面明显优于所有其他评分函数。在迭代20时,Top-1达到40.4%的值,意味着超过40%的考虑目标有一个正确模型排名第1位。这个值几乎是性能最佳的非CONSRANK函数值23.1%的两倍。至于Top-10值,Iter-CONSRANK85克服或等同于所有其他150多个考虑的评分函数的性能,只有三个评分函数例外。值得注意的是,当仅考虑初始%corr高于1%的简单到困难目标时,Iter-CONSRANK85的Top-1和Top-10值分别提高到63.6%和66.7%,这些是在实际实验室活动中更合理处理的情况。在Top-1成功率方面,继Iter-CONSRANK85和CONSRANK之后性能最佳的函数是AP_PISA和ZRANK,成功目标的百分比几乎减半,为36.4%。至于Top-10,只有三个函数,AP_PISA、AP_T1和CP_TSC,性能超过Iter-CONSRANK85,最大百分比为75.8%。我们还报告了Iter-CONSRANK85和CONSRANK与所有其他考虑的描述符相比,在每个难度类别上的比较成功率。结果显示,Iter-CONSRANK85在所有类别中始终是性能第一或第二的函数,除了非常困难的类别。然而,正如预期的那样,在非常困难的目标上,所有描述符都表现出较差的性能,最佳的描述符DOKB仅在1个和2个目标上分别将正确解定位在Top-1和Top-10位置。
我们还在另一个约20,000个诱饵的数据集Score_set上测试了方法性能,该数据集在优化过程中未被Iter-CONSRANK85见过。Score_set是一个有价值的测试数据集,因为其目标在初始模型数量、%corr(1)尤其是来源方面具有很大的多样性。事实上,其诱饵由CASP多轮实验中的众多参与者贡献,他们使用各种软件和方法获得这些模型。我们在Score_set上获得的结果基本证实了我们在3K-BM5up上获得的结果。在这个数据集上,用于将模型提升到下一次迭代的截止值0.85也是最佳折衷方案。这个截止值允许在正确解集成富集方面达到最佳整体性能,同时保持有意义的模型数量。尽管每个难度类别中的目标数量可能太少,无法得出一般性结论,但Iter-CONSRANK85在Av%corr方面的最佳性能在迭代20达到,此时Av%corr达到36.6%的值。这相对于初始值9.9增加了约4倍。当从分析中排除4个非常困难的目标时,Av_%corr增加到46.5%,相当于每2个模型中就有1个正确模型。值得注意的是,对于简单目标,所有不正确的模型都被移除,从而获得全部正确的诱饵集。此外,还值得注意的是,Iter-CONSRANK85在迭代20时改善了11个简单到困难目标中7个目标的%corr(i)。至于在排名靠前位置定位正确解的能力,初始模型集成中排名正确解为Top-1和Top-10位置的目标百分比为35.7%;而在Iter-CONSRANK85迭代过程中,Top-10值在迭代20时进一步增加到42.8%。在我们为进行比较而测试的157个公开可用评分函数中,只有AP_PISA在Top-1和Top-10值上略微优于Iter-CONSRANK85,而另外四个函数在Top-1值上表现不如它,但在Top-10值上优于它。
最后,我们在一个更大的数据集30K-BM5上测试了Iter-CONSRANK85的性能,该数据集包含6.4×106个模型,涉及213个BM5目标。这些模型中只有一小部分包含在3K-BM5-up数据集中,在Iter-CONSRANK85优化期间使用,而绝大多数是未见过的。30K-BM5数据集特别具有挑战性,因为缺少“简单”目标,“非常困难”、“困难”和“中等”目标分别占案例的72%、26%和2%。令人鼓舞的是,在这个未见过的数据集上,第20步的截止值0.85也表现出非常好的性能,使我们能够实现3.2%的整体Av%corr。这相对于初始值0.8%增加了约4倍。对于“困难”目标,取得了更好的结果,正确解的平均富集度增加了约6倍,从初始的1.7%增加到9.8%。最后,最大的Av%corr在第25步达到,为3.6%,证实将迭代过程停止在第20步对于实际应用是一个稳健的选择。
4 结论
蛋白质结构预测的最新进展也为蛋白质组装体三维结构预测设立了突破。然而,CASP15/CAPRI中的盲目评估表明,从错误模型中识别正确模型仍然是一项具有挑战性的任务,仍有改进空间。我们在此提出了一种用于蛋白质复合物三维模型评分的新方法Iter-CONSRANK,它在共识评分算法CONSRANK中引入了迭代过程,该算法已在CAPRI中进行了广泛而成功的测试。引入迭代过程是为了通过过滤掉不正确解来丰富可用模型集成中的正确解,从而提高集成中正确解的比例。在每次迭代中,只有根据CONSRANK分数排名在所选截止值内的模型被保留用于下一次迭代,而其他模型被丢弃。
使用一个大型且具有挑战性的数据集3K-BM5up,我们在此表明Iter-CONSRANK能够通过每次迭代持续增加集成中正确模型的平均比例。在优化的截止值0.85和优化的迭代次数20下,每个目标难度类别的正确模型平均比例都显著增加。从非常困难目标的约2倍增加到中等目标的约8倍。
在3K-BM5-up数据集上正确解富集能力的这一能力在更大更挑战性的30K-BM5数据集和CAPRI衍生的Score_set上得到了证实。特别是对于正确解百分比为1%或以上的目标,实际上对应于实际场景中的大多数情况,通过Iter-CONSRANK强烈增加模型集成中正确解的机会非常高。事实上,3K-BM5up中初始正确解比例在1%到20%之间的目标有三分之二被Iter-CONSRANK转变为极其简单的情况,正确解比例超过50%。这表明使用Iter-CONSRANK预处理初始模型集成应使其成为任何进一步分类或评分过程的更容易案例。
此外,将Iter-CONSRANK作为评分方法在3K-BM5up上的性能与150多个评分函数的性能进行比较表明,它在将正确解排名在Top-10位置方面表现极佳,并且在将正确模型排名在Top-1位置方面是迄今为止性能最好的。将正确模型排名在Top-1位置的能力对于实验者尤其有吸引力,他们希望一次专注于一个或几个假设的组装体。基于这些理由,我们认为Iter-CONSRANK可以被视为一个有价值的独立评分工具,以及一个用于预处理模型集成以进行其他评分和分类工具进一步分析的应用程序。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号