Paraplume:一种基于蛋白语言模型的快速准确抗体互补位预测新方法及其在抗体库动态研究中的应用

《PLOS Computational Biology》:Paraplume: A fast and accurate antibody paratope prediction method provides insights into repertoire-scale binding dynamics

【字体: 时间:2026年02月19日 来源:PLOS Computational Biology 3.6

编辑推荐:

  本研究介绍了一种名为Paraplume的全新抗体互补位(paratope)预测方法。该方法直接从抗体序列出发,利用集成多个蛋白语言模型(PLMs)的嵌入特征,无需依赖抗体-抗原复合物的三维结构信息即可实现准确预测,性能在多组基准数据集上超越了现有的结构依赖方法。Paraplume兼具高计算效率与可扩展性,为大规模抗体库(antibody repertoires)分析提供了有力工具,揭示了抗原驱动下体细胞超突变(somatic hypermutation, SHM)与互补位增大、亲和力成熟之间的关联,为理解抗体功能进化与理性设计治疗性抗体开辟了新途径。

  
Paraplume:一种快速、准确的抗体互补位预测方法及其对库尺度结合动力学的启示
引言
抗体是免疫系统产生的能够特异识别外来病原体的蛋白质。抗体与抗原结合的特异性由其可变区中被称为互补位(paratope)的关键氨基酸残基所决定,这些残基与抗原上的表位(epitope)直接相互作用。准确定位互补位对于治疗性抗体的设计与开发至关重要。然而,传统的实验方法耗时费力,而大多数计算预测方法(如Paragraph、PECAN、MIPE等)依赖于抗体-抗原复合物的三维结构信息,这需要先进行结构建模,计算量大且难以扩展到大规模抗体库(antibody repertoires)的分析中。为了应对这些挑战,本研究引入了一种全新的序列预测方法——Paraplume。
Paraplume方法
Paraplume的核心是一种基于序列的监督学习方法。其工作流程是:首先,将抗体序列(可以是重链、轻链或重轻链对)输入到六个预先训练好的蛋白语言模型(PLMs)中,这些模型包括通用的ESM-2、ProtTrans,以及专门针对抗体优化的AbLang2、Antiberty、IgT5和IgBert。接着,对序列中每个氨基酸,从这六个PLMs的最后一层提取其嵌入特征,并将其拼接起来。然后,这个组合特征被送入一个多层感知机,后者计算出每个氨基酸属于互补位的概率。模型通过最小化二元交叉熵损失进行训练。重要的是,尽管模型的训练标签依赖于抗体-抗原复合物的结构数据,但Paraplume在预测时完全不需要结构输入,实现了序列到互补位的直接、快速推断。
Paraplume的优势在于其可扩展性和灵活性。它不仅能处理成对的轻重链输入,也能处理单链(如仅重链)序列,适用于不同来源的抗体库数据。在计算效率上,Paraplume预测1000条序列仅需约3分钟,而仅使用ESM嵌入的简化版Paraplume-S更是仅需50秒,为海量抗体序列的大规模分析提供了可能。
蛋白质语言模型嵌入的贡献与可解释性
为了探究不同PLM对预测的贡献,研究团队进行了消融实验。结果表明,将多个PLM的嵌入特征拼接使用,其性能始终优于使用单个模型,这证实了不同模型(通用模型与抗体特异性模型)的嵌入能捕捉到互补的信息。通过PCA降维等实验也发现,简化嵌入维度会导致性能下降,但部分简化配置仍可保持具有竞争力的精度,这为计算资源受限的场景提供了轻量化选择。
为了提升模型的可解释性,研究者计算了Shapley值来量化每个PLM对最终预测的重要性。分析发现,通用PLM(如ESM)在互补位预测中整体贡献最大,但在互补性决定区(CDRs)等高度可变的区域,其相对重要性会下降,而抗体特异性PLM(如AbLang2、Antiberty)在这些区域的贡献则显著增加。这种互补性表明,通用模型在全局特征上占优,而专业模型在抗体特异性区域的表现更佳。此外,Paraplume还能预测到位于框架区(Framework region)的非经典DE环中的结合残基,这是将预测限制在CDR±2区域的传统方法(如Paragraph、Parapred)所无法企及的。
性能比较
研究者在三个广泛使用的基准数据集(PECAN、Paragraph、MIPE)上评估了Paraplume的性能,评估指标包括PR AUC、ROC AUC、F1分数和Matthews相关系数(MCC)。
结果显示,在不依赖结构信息,仅使用抗体序列作为输入的方法中,Paraplume在Paragraph数据集的所有指标上均领先,在PECAN和MIPE数据集上也大多排名第一或第二。它超越了同样基于序列的Parapred,也超越了需要先进行抗体结构建模的方法(如依赖ABodyBuilder的Paragraph、依赖AlphaFold2的MIPE),以及与需要抗原序列信息的PECAN等,展现了优异的综合性能。在实验结构已知的情况下,研究者结合Paraplume和结构依赖方法Paragraph的优势,开发了Paraplume-G,在CDR±2区域使用Paragraph的预测,在其他框架区域使用Paraplume的预测。结果显示,Paraplume-G在实验结构输入的方法中,性能在所有三个数据集的十二个比较点中,有十一个排名第一或第二,实现了与最先进方法相当甚至更优的表现。
利用抗体臂的对称性计算互补位预测的性能上限
抗体在结构上通常具有对称性,其两个相同的臂(Fab)可以结合相同的抗原。研究者利用这一特性,构建了一个包含470个抗体-抗原复合物的数据集,其中抗体两个臂的序列完全相同,抗原也相同。通过比较这两个“镜像”臂的互补位差异,研究者定义了互补位不对称性(paratope asymmetry),并发现这种差异可能与抗原表位的变化(epitope asymmetry)密切相关,暗示了抗体-抗原结合界面的固有灵活性,这是一种真实的生物动力学现象,而非技术假象。
这种固有的生物变异性为序列互补位预测方法设定了一个经验性的性能上限。通过将数据集中一个臂的互补位标签作为“真实值”,另一个臂的标签作为“预测值”,可以计算出理论上可达到的最佳性能。在Paragraph测试集的子集上,这个F1分数的上限约为0.95。这一分析表明,即使理想条件下,由于天然的结构变异性,完美的互补位预测也是不可能的。Paraplume对预测存在不一致的“模糊”残基的信心也较低,预测概率更倾向于0.5,这进一步印证了生物复杂性对预测任务带来的根本挑战。
在大规模抗体序列数据集上的应用
1. 互补位概率与结合亲和力的关系
研究者将Paraplume应用于一个广泛中和抗体CR9114及其所有16个突变组合(共216个变体)的数据集。分析发现,单个突变位点被预测为属于互补位的概率的平均变化量,与该突变引起的结合亲和力平均变化量呈正相关。这表明Paraplume的预测能够捕捉到影响亲和力的关键位点。
2. 突变增加互补位大小
研究者将抗体序列中所有氨基酸的互补位概率之和定义为“互补位大小”的代理指标。在CR9114变体库中,他们观察到互补位大小与突变数量呈正相关,且这种相关性在能够结合抗原的变体(binders)中尤为明显,而在非结合变体(non-binders)中则不存在。这提示,在亲和力成熟过程中,体细胞超突变(SHM)可能导致互补位的扩大,从而形成更多的相互作用界面来增强结合。
3. 在抗体库中的验证
研究者进一步将Paraplume应用于真实的免疫组库数据。他们对比了用破伤风类毒素(TT)免疫后的小鼠抗原特异性抗体库与同物种的初始(naive)抗体库。结果发现,抗原特异性抗体库的互补位显著大于初始库。更重要的是,在免疫库中,观察到的抗体序列与其推断出的种系(germline)版本相比,其互补位普遍增大,且这种增大与突变数量呈正相关。然而,在初始库的种系序列中并未观察到这种趋势,说明互补位的增大是SHM选择的结果,而非初始种系的固有差异。
研究者还将分析扩展到包含约400万条IgG重链序列的人类健康抗体库。同样发现,成熟抗体的互补位大于其种系序列,且互补位大小在低突变数量时随突变增加而增大,但在突变超过约10个后趋于平台期。此外,研究者以克隆谱系大小作为阳性选择强度的代理指标,发现谱系内平均互补位增大的程度与谱系大小呈正相关,即使在控制了突变数量的影响后,这种关联依然稳健。这表明,在更强选择压力下增殖的克隆,其互补位的扩大更加显著。
基于互补位加权的序列嵌入
研究者还探索了Paraplume预测结果的下游应用。他们提出了一种“互补位加权”的序列嵌入方法,即在计算代表整个抗体序列的嵌入向量时,对每个氨基酸的嵌入按照其被预测为互补位的概率进行加权平均,而非传统的简单平均。在结合剂分类(binder vs. non-binder classification)和表位分型(epitope binning)任务中,使用互补位加权的嵌入进行逻辑回归训练,其性能(F1分数)显著优于使用未加权嵌入。然而,在预测结合亲和力(KD)的任务中,加权嵌入带来的提升则不一致且有限。在预测与抗原结合无关的抗体表达水平任务中,加权嵌入则没有提供任何优势。这表明,互补位加权嵌入的优势高度依赖于下游任务与抗原识别的相关程度。
讨论与展望
准确识别抗体互补位对于生物技术和医学,特别是治疗性抗体的设计与优化至关重要。Paraplume作为一种不依赖结构、仅基于序列的快速预测工具,为填补高通量抗体测序数据与功能性结构洞察之间的鸿沟提供了可扩展的解决方案。本研究不仅在方法性能上实现了突破,其概念性贡献还包括:(1)通过分析抗体臂对称性,为序列互补位预测设定了现实性能上限;(2)首次实现了抗体库尺度的互补位分析,揭示了SHM和亲和力成熟与互补位扩增的关联;(3)展示了互补位加权嵌入在抗体功能分类任务中的价值。
尽管Paraplume的MLP架构在可解释性上有所不足,但通过Shapley值等分析工具,仍可对模型决策提供一定洞见。未来,随着结构抗体数据库(如SAbDab)的扩大和PLM的持续进步,Paraplume的准确性和应用范围有望进一步提升。这项工作挑战了“结构建模是研究抗体-抗原相互作用的必要前提”的传统观念,确立了基于PLM的序列互补位预测作为探索抗体多样化、进化和功能的一个强大、可扩展的替代途径。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号