基于大语言模型的抗原特异性配对链抗体生成:人工智能驱动的抗体发现新范式

《Cell》:Generation of antigen-specific paired-chain antibodies using large language models

【字体: 时间:2025年11月05日 来源:Cell 42.5

编辑推荐:

  本刊推荐:研究人员针对传统抗体发现过程效率低、成本高、成功率有限的问题,开展了利用大语言模型(LLM)生成抗原特异性配对链抗体的研究。他们开发了名为MAGE(单克隆抗体生成器)的蛋白质语言模型(PLM),通过微调Progen2模型,成功生成了针对SARS-CoV-2、H5N1和RSV-A等多种病原体的新型人源化抗体序列。实验验证显示,生成的抗体具有多样化的结合特异性、中和活性和表位特征,标志着人工智能在抗体设计领域取得重大突破。

在生物医学领域,单克隆抗体作为一类能够特异性靶向任何蛋白质的治疗剂,展现出巨大的应用潜力。然而,传统的抗体开发主要依赖基于实验的发现方法,通常需要通过筛选接触过目标抗原的人类或动物样本来进行。即使近年来高通量抗体发现方法的发展大幅提升了效率,这一过程仍然耗时费力、成本高昂且成功率有限。随着治疗市场和对单克隆抗体应用需求的持续增长,对能够加速和扩展抗体发现能力的计算机工具的需求日益迫切。
近年来人工智能(AI)领域的突破,特别是基于Transformer架构的大语言模型(LLM)和扩散模型在各种任务上的卓越表现,为抗体相关设计任务的计算方法带来了新的机遇。现有方法包括亲和力成熟、抗体重新设计以及单域抗体生成等,但尚未有公开的方法能够展示无模板、抗原特异性抗体的设计能力。现有方法主要局限于抗体重新设计,侧重于生成互补决定区(CDR),需要提供初始抗体模板来提供可变基因和框架区域。此外,这类模型主要基于结构,训练时需要抗体-抗原复合物,由于数据不足(尤其是在配对的人源抗体方面),这一限制尤为显著。
在这项发表于《Cell》杂志的研究中,Perry T. Wasdin等研究人员提出了一种名为MAGE(单克隆抗体生成器)的蛋白质语言模型(PLM),该模型经过微调,能够针对输入的抗原序列生成配对的重链和轻链抗体可变区序列。MAGE是通过在包含18,507对抗体-抗原序列对的训练数据库上微调预训练的Progen2模型而开发的。研究团队构建了一个包含冠状病毒抗体数据库(CoV-AbDab)、结构抗体数据库(SAbDab)、专利和文献抗体数据库(PLAbDab)以及来自文献的高通量定量结合数据等多种来源的训练数据集。此外,还通过LIBRA-seq(通过测序将B细胞受体与抗原特异性关联)技术收集了针对多种病毒抗原的抗原特异性抗体序列的原始数据集。
研究人员采用的关键技术方法包括:基于Transformer架构的蛋白质语言模型微调技术、LIBRA-seq高通量B细胞受体筛选技术、酶联免疫吸附测定(ELISA)、生物层干涉技术(BLI)、假病毒中和实验、冷冻电镜(cryo-EM)结构解析以及生物信息学分析等。研究中使用的样本来源包括健康供体、HIV感染者、流感疫苗接种者和COVID-19康复者的外周血单核细胞(PBMC)。
生成抗体序列多样且与训练数据不同
研究发现,MAGE能够生成具有多样化序列特征的抗体,使用37种独特的重链可变基因和30种独特的轻链可变基因。生成的序列在抗体所有区域都显示出差异,而不仅仅是设计CDR区域。与训练数据相比,生成的重链平均含有11.7个氨基酸差异,轻链平均含有1.4个差异,其中CDR3区域的差异最大。
生成抗体对SARS-CoV-2 RBD表现出多样化结合特征
实验验证显示,针对SARS-CoV-2 RBD生成的20个抗体中,有9个(45%)显示出结合活性。这些结合抗体与训练序列相比表现出显著的新颖性,与最接近的训练抗体总距离(重链和轻链差异之和)范围为5-25个氨基酸残基(平均13.6)。通过生物层干涉技术(BLI)进一步验证了结合特异性,其中5个抗体显示出纳摩尔到亚纳摩尔级别的高亲和力结合。
生成RBD抗体结合全长刺突蛋白并中和SARS-CoV-2
在9个RBD结合抗体中,有6个显示出与全长SARS-CoV-2刺突蛋白的结合能力。其中4个抗体在假病毒实验中显示出中和活性,其中一个抗体(RBD-409)表现出高效的中和能力(IC50 = 6.7 ng/mL)。该抗体对SARS-CoV-2 Gamma(IC50 = 17 ng/mL)和Delta(IC50 = 4.1 ng/mL)变异株保持中和能力,并对包括BA.2、BA.2.75和BJ.1在内的多个Omicron变异株也显示出中和活性。
MAGE能够针对训练数据中代表性较低的不同靶点生成功能性抗体
研究还验证了MAGE针对训练数据中代表性较低的靶点生成抗体的能力,包括呼吸道合胞病毒A(RSV-A)预融合F蛋白和新出现的禽流感H5N1(H5/TX/24)血凝素(HA)。对于RSV-A,尽管训练数据中精确匹配的抗体数量仅为SARS-CoV-2 RBD的约十分之一,但在23个测试抗体中有7个(30%)显示出结合活性。对于H5/TX/24 HA,这一目标代表零样本学习场景,因为该精确抗原序列在训练中未出现,但在18个测试抗体中有5个(28%)显示出强结合活性,且所有5个结合抗体均对提示毒株显示出中和能力(IC50 < 1μg/mL)。
MAGE生成训练数据中未观察到的共识突变之外的体细胞超突变变化
研究发现,MAGE能够生成功能性抗体序列,其残基超出了训练中观察到的抗体"平均值"。例如,对于最有效的中和H5特异性抗体H5-384,与训练中观察到的H5N1特异性IGHV4-34抗体共识序列有9个残基不同,与种系序列有7个突变。对于高度突变的RSV结合抗体RSV-3301,与训练共识序列有11个残基不同,与种系序列有18个突变,其中10个残基既不同于共识序列也不同于种系序列。
结构表征揭示多样化结合模式
通过冷冻电镜(cryo-EM)解析了两个MAGE设计的抗体(RSV-2245和RSV-3301)与RSV F蛋白复合物的结构,分辨率达到3.4?。结构分析显示,RSV-2245主要结合预融合特异性抗原位点V,而RSV-3301则靶向抗原位点I,这表明MAGE能够生成具有不同结合特性的抗体。值得注意的是,RSV-3301靶向的表位尚未得到充分表征,据研究人员所知,这是首次展示人源抗体在预融合F蛋白上靶向该表位的结构。
MAGE抗体具有临床相关的可开发性特征
通过计算机治疗性抗体分析器(TAP)工具评估显示,所有经过验证的MAGE抗体在可开发性风险指标上均未超过高风险阈值,表明这些抗体在关键指标上均落在临床阶段治疗性抗体的分布范围内,具有临床开发潜力。
本研究开发了一种纯序列基础的模型,能够生成具有提示特异性结合的配对重链-轻链抗体序列。MAGE模型在训练完成后不需要模板抗体或蛋白质结构信息,当输入抗原氨基酸序列时,能够产生完整的人源VH和VL链,包括在整个可变序列中引入种系序列变化的新颖设计。实验验证证实,像MAGE这样的生成式PLM模型能够完成生成完整配对重链和轻链抗体序列的复杂任务,针对RBD、H5 HA和RSV-A预融合F蛋白显示出验证的结合活性。
MAGE生成的抗体展现出多样化的序列特征和结合特性,包括对每个抗原设计中部分抗体的有效中和能力。虽然MAGE不以中和为条件,但这证明了这些抗体的功能性,并验证了MAGE在治疗性发现背景下产生有用、临床相关抗体的能力。对于RBD和RSV-A,部分经过验证的靶点特异性设计是在没有偏向已知抗体的情况下选择的,证明了无需起始模板抗体序列或结构即可设计有效中和抗体的能力。针对H5/TX/24 HA的中和抗体设计展示了零样本学习能力,MAGE能够通过训练针对相关但不同的H5N1毒株的先前表征抗体,生成针对新出现流感毒株的抗体。
这项研究展示了生成式蛋白质语言模型在抗体设计领域的巨大潜力。与传统抗体发现方法相比,MAGE提供了一种快速、高效的替代方案,特别适用于应对新发传染病威胁。当出现新的病原体时,MAGE可以迅速生成候选抗体序列,大大缩短抗体开发的时间周期。此外,该模型能够探索传统方法难以触及的抗体序列空间,可能发现具有新颖结合特性和中和活性的抗体类型。
然而,该研究也存在一定局限性。基于序列的方法缺乏功能数据的直接整合,目前仅限于生成特异性结合目标抗原的抗体,尚不能明确生成具有高结合亲和力或强中和效力的抗体。虽然研究表明生成的抗体可以实现这些功能,但所需功能特性的生成目前受限于候选抗体选择,并不能保证。针对特定靶点的应用可以通过整合结构和表位或互补位信息来进一步定制。
总体而言,MAGE代表了抗体发现领域的一项重要突破,为快速开发治疗性抗体提供了新的范式。随着数据生成方法的不断改进和高通量方法(如LIBRA-seq)的大规模应用,很快可能会产生足够规模的数据集来训练此类模型,从而针对训练数据集中未包含的各种抗原靶点有效生成抗体。这些数据集的开发以及随后将生成的抗体实验验证纳入训练数据,将实现MAGE的迭代改进。考虑到LLM在其他领域应用中已显示出泛化能力,研究人员预计,只要有足够的数据,像MAGE这样的模型能够学习更一般的残基水平相互作用规则,这些规则控制着抗体-抗原结合,并具有针对完全未见过的靶点生成抗体的能力。这种方法有可能彻底改变抗体发现领域,尽管在此背景下这种模型的泛化能力尚未得到证实。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号