综述:高通量实验和机器学习加速抗体发现与优化

【字体: 时间:2025年05月10日 来源:Journal of Biomedical Science 9

编辑推荐:

  本文聚焦抗体治疗药物研发,阐述了高通量实验与机器学习(ML)整合在抗体工程中的应用。二者结合可利用大规模数据训练模型,预测抗体特性,加速抗体发现与优化,助力解决传统研发难题,为抗体治疗发展带来新契机。

  

背景


在过去几十年里,抗体治疗药物愈发重要,在免疫反应中发挥关键作用。因其独特的特异性和多功能性,成为药物研发的重点领域。最初主要用于治疗癌症和自身免疫性疾病,近年来其应用迅速拓展到传染病、过敏等疾病的治疗,推动了全球治疗性抗体市场的快速增长。目前,有超 100 种新的抗体候选药物正在进行后期临床开发。

然而,制药行业面临的重大挑战是如何加速开发新颖、高效且安全的抗体药物,以满足全球日益增长的治疗需求。传统的实验室抗体开发方法在通量、成本和探索大量候选空间方面存在显著限制。例如,杂交瘤技术操作繁琐,需耗费数月甚至数年才能确定先导候选抗体,而且难以评估多种抗体候选物的抗原特异性,无法快速评估大型抗体库。抗体亲和力成熟对获得最佳治疗候选抗体至关重要,但传统方法在探索序列空间以寻找改进变体方面效率低下。此外,评估抗体的物理化学性质和配方稳定性也十分重要,却依赖经验实验,且劳动强度大。

近年来,高通量实验和机器学习(ML)的发展催生了数据驱动的方法,成为加速抗体开发的有力范式。这些方法利用包含抗体序列、结构和结合测定读数的大规模数据集,结合 ML 算法,促进治疗性抗体候选物的合理设计和优化。与传统的经验和试错方法不同,数据驱动的抗体工程为抗体发现和先导候选抗体的优化提供了更系统、高效的框架。它不仅能提高抗体亲和力,还能通过捕捉复杂的序列 - 结构 - 功能关系,预测和优化与可开发性相关的各种特性,如亲和力、交叉反应性和物理化学稳定性,而无需进行详尽的经验筛选。

高通量数据采集方法


  1. 下一代测序(NGS)技术:NGS 技术通过大规模平行高通量测序,彻底改变了抗体库分析,能够详细观察多样化的抗体库。不同的 NGS 平台,如 Illumina、Ion Torrent、Pacific Biosciences(PacBio)和 Oxford Nanopore,在读取长度、准确性和通量方面各有优势。这些技术有助于识别抗体库中的稀有克隆,研究抗体亲和力成熟过程中的谱系进化。长读长测序对于精确捕获完整可变区和表征互补决定区(CDRs)尤为重要。优化的文库制备协议,结合抗体特异性扩增、靶标富集和独特分子标识符,显著提高了 NGS 用于抗体分析的效率。再加上定制生物信息学方法的发展,这些进步为理解抗体库的复杂性开辟了新途径。例如,BCR 测序作为 NGS 的一种特殊应用,可详细分析 B 细胞受体多样性,识别单个 B 细胞的配对重链和轻链序列,这对于理解抗体库和识别具有特定结合特性的抗体至关重要,这些抗体可进一步开发为治疗药物。
  2. 抗体库筛选的展示技术:抗体展示技术与生物淘选和荧光激活细胞分选(FACS)等技术相结合,已成为高通量筛选抗体库的重要手段。噬菌体展示技术将抗体片段展示在噬菌体外壳蛋白上,可针对固定化抗原进行筛选,能够筛选规模大于1010的文库;酵母展示技术利用酵母细胞在其表面表达抗体,通过 FACS 检测荧光抗原来分选,利用真核生物蛋白质折叠的优势,可探索规模达109的文库;哺乳动物细胞展示技术检测哺乳动物细胞表面表达的抗体,提供了接近天然抗体条件和翻译后修饰的筛选环境;核糖体展示等无细胞系统则可快速探索序列多样性,无需转化或转染。微流体筛选和基于液滴的微流体技术的出现,更是实现了在单克隆分辨率下高通量筛选抗体库。不同展示平台和先进筛选方法的结合,能够获取广泛的抗体序列,为识别用于治疗应用的最佳抗体奠定了基础。
  3. 高通量抗原 - 抗体相互作用分析:在抗体库初步筛选后,全面表征抗原结合特性对于确定先导候选抗体至关重要。酶联免疫吸附测定(ELISA)、生物层干涉测量(BLI)和表面等离子共振(SPR)等高通量技术,可在单克隆水平上对抗体 - 抗原相互作用进行定量评估,提供有关动力学、亲和力和特异性的有价值信息。ELISA 是一种广泛使用且成本效益高的基于平板的测量抗体结合的方法,但与 BLI 和 SPR 不同,它无法提供动力学信息。BLI 是一种无标记技术,通过测量生物传感器上抗体与溶液中抗原相互作用产生的干涉图案,可实时分析多达 96 个同时发生的相互作用。基于测量简便性和无细胞表达系统,开发了 FASTIA 系统,可在两天内分析数十种抗体变体的结合特性。SPR 同样是无标记方法,通过检测传感器表面抗原 - 抗体结合时的折射率变化,能够在动力学测定和抗原表位分类中筛选抗体克隆。近年来,一些 SPR 模型已能够同时测量多个样品,还开发出了能够同时测量数百个抗体 - 抗原相互作用的高通量系统,如 BreviA 系统,可同时测量 384 个相互作用。这些高通量系统生成的大量结合动力学和亲和力数据集,对于训练和验证用于数据驱动抗体设计的机器学习模型至关重要。
  4. 高通量稳定性分析:通过高通量方法评估抗体的物理化学稳定性,对于评估其可开发性和制造可行性至关重要。差示扫描量热法(DSC)可提供深入的热力学稳定性概况,但通量较低,限制了其在抗体工程中的广泛应用。相比之下,差示扫描荧光法(DSF)通过检测蛋白质展开时荧光的变化(指示疏水区域的暴露),能够快速评估抗体稳定性,便于以平板形式对抗体稳定性进行快速排序。通过改进先前描述的高通量相互作用分析方法,开发了一种新系统,可同时生产抗体、通过纳米孔技术进行测序,并通过 DSF 获取数百种抗体的热稳定性数据。此外,基于活性的稳定性测定法通过评估抗体在热或化学应激后保留的活性,能够比较各种抗体变体的相对稳定性。这些高通量方法的整合,使抗体工程师能够根据物理化学性质有效筛选和优先选择多个候选抗体,简化了稳定先导抗体的选择过程,有助于进一步优化和开发制造工艺。

用于机器学习的抗体特征提取


  1. 从序列中提取特征:基于序列的特征化在将抗体一级结构转化为用于 ML 模型的信息输入表示中起着关键作用。最基本的方法是独热编码,它构建一个二进制向量,指示序列中每个位置氨基酸的存在或不存在,但这种方法无法捕捉残基之间的任何生化关系。更先进的特征化策略考虑了残基的物理化学性质,如疏水性、电荷和大小,能够提供更全面的表示,准确反映序列 - 结构关系。此外,从多序列比对中得出的统计指标,如位置特异性评分矩阵(PSSMs),可揭示进化上保守的模式。

近年来,在大规模蛋白质序列数据库上预训练的语言模型成为强大的特征提取器。这些蛋白质语言模型(PLMs)类似于基于文本的模型,如长短期记忆网络(LSTM)和双向编码器表征来自变换器(BERT),通过自监督训练学习氨基酸序列的上下文表示。应用于抗体序列时,它们能够捕捉与抗体行为相关的复杂模式和长程依赖关系。利用 PLMs 的常见方法是计算抗体序列中每个残基的嵌入,这些残基级别的嵌入是代表每个氨基酸上下文信息的高维向量,可通过平均等方式聚合,获得整个抗体序列或特定区域(如 CDRs)的固定长度向量表示,用于下游机器学习任务,如预测结合亲和力、特异性或可开发性。但这并非利用 PLM 衍生特征的唯一方式,还可将残基级嵌入直接作为卷积神经网络或图神经网络的输入,或采用注意力机制聚焦于对预测任务重要的特定残基或区域,也可利用 PLM 生成的每个残基的似然分数,这些分数反映了在考虑周围序列上下文时,特定位置观察到特定氨基酸的概率,可能指示对功能或稳定性重要的区域。

UniRep 是早期的蛋白质语言模型,利用 LSTM 并在超过 2400 万个蛋白质序列上进行训练,可为任何给定的蛋白质序列生成 1900 维的嵌入,为蛋白质工程任务(如预测结合亲和力、稳定性和表达水平)提供有价值的信息。ESM - 1b 是另一个强大的模型,利用变换器架构,在超过 2.5 亿个蛋白质序列上进行训练,可生成 1280 维的嵌入,在二级结构预测、接触图预测和远程同源性检测等任务中表现出色。ESM - 2 作为 ESM - 1b 的后继者,进一步提高了性能和泛化能力,仅通过序列就能预测蛋白质的结构、功能和其他特性,在各种抗体工程应用中具有重要价值。专门为抗体开发的蛋白质语言模型,如基于 BERT 的 AntiBERTy,在天然抗体序列上进行训练,最初用于理解抗体亲和力成熟过程;AbLang 在观察抗体空间(OAS)数据库中的综合抗体序列数据集上进行训练,可恢复抗体序列中缺失的残基;Kenlay 等人开发的 IgBert 和 IgT5,在来自 OAS 数据库的超过 20 亿个未配对抗体序列和 200 万个配对序列的大规模数据集上进行训练,能够处理配对和未配对的抗体序列,在序列恢复、亲和力预测和表达预测方面优于现有抗体和蛋白质语言模型。
2. 从结构中提取特征:虽然基于序列的特征很重要,但三维(3D)结构数据可改进用于抗体工程的 ML 模型。结构特征能提供关于空间排列和相互作用的有价值信息,这些信息决定了抗体的功能和生物物理性质。图形化蛋白质结构表示是有效的特征化方法,在这种框架中,单个残基被视为节点,它们的空间关系(如距离、角度和残基间接触)被编码为边,这种基于图的表示捕获了抗体结构内复杂的相互作用网络。图神经网络(GNNs)是一类设计用于处理图结构数据的深度学习模型,可从这些抗体结构图中获得丰富的表示,通过沿边传播和聚合信息,有效捕捉与预测抗体表位相关的局部和全局结构上下文。

近年来蛋白质语言模型的进展表明,它们能够整合序列和结构信息。与 ESM - 1b 或 ESM2 等前身不同,ESM3 在训练过程中明确纳入 3D 结构数据,使其能够学习蛋白质更丰富的表示,捕捉序列、结构和功能之间的复杂关系。ESM3 使用离散自动编码器对蛋白质结构进行标记化,将其表示为一系列离散标记,捕获每个氨基酸周围的局部结构邻域。这种创新方法使 ESM3 在结构预测和生成任务中表现出色,展示了其在可编程蛋白质工程中的潜力。将这些基于结构的特征化技术与基于序列的方法(如 ESM3 中采用的方法)相结合,将显著提高对各种抗体特性的预测能力,改善计算机筛选和治疗候选设计。最近的研究还专注于开发蛋白质从头设计方法,特别是用于结合剂设计。RFdiffusion 是一个显著的例子,它采用基于扩散的生成模型,适用于抗体设计,能够生成具有所需结构特征(如特定 CDR 环构象或结合取向)的抗体,并成功从头生成了单域抗体和单链 Fv(scFv)。AlphaProteo 使用基于扩散模型的方法生成针对特定表位具有高亲和力的新型蛋白质结合剂,虽然它用于设计非抗体的从头蛋白质,但其基于扩散的方法理论上可通过关注 CDR 区域进行修改,用于抗体设计。

数据驱动抗体设计的实际应用


  1. 亲和力成熟:数据驱动抗体工程的主要焦点之一是亲和力成熟,即增强抗体的结合强度。传统上,这一过程劳动强度大且依赖试错。然而,由大型抗体数据集和机器学习进展驱动的人工智能方法,实现了更高效、合理的方法。

ML 与高通量展示技术(如噬菌体和酵母展示)的结合尤为强大。这些技术能够快速筛选庞大的抗体库,生成大量抗体序列及其相应结合亲和力的数据集,为 ML 模型提供了宝贵的训练数据。例如,Mason 等人使用深度神经网络预测在哺乳动物细胞上展示的曲妥珠单抗变体的抗原特异性,其模型在 FACS 筛选数据上进行训练,成功分类了结合剂和非结合剂,能够从大量虚拟变体中识别出 30 个预测保留与 HER2 结合的变体,展示了深度学习从序列数据预测抗体特异性的能力,简化了广泛文库的筛选过程。

Arras 等人结合酵母展示、下一代测序和 AI/ML 优化人源化单域抗体,通过分析序列数据,快速识别出强效的 VHH 命中变体,从四个不同簇中获得了多个优化的 VHH 命中变体,这些变体表现出高亲和力结合和良好的早期可开发性特征,凸显了实验和计算方法相结合加速抗体优化的力量。

其他 ML 模型在预测和优化抗体亲和力方面也取得了成功。Bachas 等人利用深度学习通过高通量 FACS 和基于 SPR 的系统预测结合亲和力,其模型能够准确预测大量突变空间中未见变体的结合亲和力,展示了深度学习在定量预测抗体 - 抗原相互作用方面的潜力,同时强调了在设计过程中考虑可开发性和免疫原性的重要性,引入 “自然度” 作为评估变体与天然免疫球蛋白相似性的指标。

在大规模蛋白质序列数据库上训练的蛋白质语言模型(PLMs)的发展,彻底改变了抗体亲和力成熟过程。这些模型捕捉了序列、结构和功能之间的复杂关系,无需获取新的特定任务训练数据,就能为抗体设计提供准确、细致的预测。例如,基于 PLM 的深度生成模型已成功应用于指导亲和力成熟,利用 PLM 中嵌入的预训练知识探索广阔的序列空间,识别高亲和力变体,有效减少了对昂贵且耗时的实验筛选的依赖。此外,利用结构引导的 PLMs 也取得了显著成果,如使用逆折叠模型 ESM - IF1 并结合结构信息指导抗体进化,应用于两种针对 SARS - CoV - 2 的治疗性抗体时,中和能力提高了 25 倍,对抗体逃逸病毒变体的亲和力提高了 37 倍,展示了结合结构信息的 PLMs 在抗体优化中的优势,为增强抗体功能开辟了新的可能性。

将语言模型与贝叶斯优化相结合,进一步提高了亲和力成熟的效果。Li 等人将 BERT 语言模型与酵母交配试验相结合,与传统方法相比,结合亲和力提高了 28.7 倍。Parkinson 等人开发的 RESP 管道,使用预训练的自动编码器和变分贝叶斯神经网络探索序列空间,提高抗体亲和力。这些混合方法展示了结合 ML 技术实现亲和力成熟显著改进的潜力。此外,将 PLMs 与主动学习相结合,也为快速抗体优化提供了新途径。Jiang 等人开发的 EVOLVEpro 平台,将 PLM 与少样本主动学习策略相结合,通过在每轮中聚焦少量实验测量,显著提高了针对两个靶点的抗体结合亲和力。
2. 超越亲和力:优化特异性、稳定性和可开发性:数据驱动的方法在优化抗体亲和力之外的特性方面也发挥着重要作用,这对于治疗成功至关重要。优化特异性可最大限度减少脱靶结合,降低潜在副作用。Saksena 等人展示了一种使用机器学习的计算反选方法,在识别非特异性治疗性生物候选物方面优于传统方法,该方法在噬菌体展示实验的多轮淘选富集数据上进行训练,结果表明计算反选在去除脱靶抗体方面比分子反选更有效。

增强稳定性对于可开发性和可制造性同样关键。Harmarkar 等人成功开发了一种 ML 模型来预测 scFv 抗体的热稳定性,利用序列和结构特征,并通过实验测量验证模型,确定了增强稳定性的关键残基位置和突变。Alvarez 和 Dean 证明了使用蛋白质嵌入(特别是来自 ESM - 2 模型的嵌入)预测纳米抗体Tm的有效性,他们开发的工具 TEMPRO 在预测Tm方面具有较高准确性,为优化纳米抗体稳定性用于各种生物医学和治疗应用提供了有价值的资源。

数据驱动的方法还可解决高浓度下高粘度的问题,这一问题会阻碍配方和给药。卷积神经网络模型 DeepSCM 仅基于序列信息就能预测抗体粘度,为简化配方开发提供了有前景的解决方案。在包含 6596 个非冗余抗体可变区的数据集上进行训练后,DeepSCM 与实验粘度测量的线性相关系数达到 0.9,展示了其在高通量粘度筛选中的潜力。此外,ML 在优化更广泛的与可开发性相关的特性(如聚集倾向、溶解性和表达水平)方面具有巨大潜力。Makowski 等人通过构建可解释的 ML 模型,识别具有优化非特异性结合和自聚集特性的抗体突变体,为解决关键的可开发性挑战提供了有力工具。

结论


在高通量实验技术和先进 ML 方法的推动下,数据驱动的抗体工程取得了显著进展。这种结合加速了治疗性抗体的发现和优化,克服了传统经验方法的局限性。

将 ML 模型应用于大规模抗体数据集(包括序列、结构和结合测定读数),能够准确预测关键特性,如亲和力、特异性和可开发性,使研究人员能够合理设计抗体并有效优化现有先导抗体。高通量技术(包括 NGS、展示技术和生物物理测定)可用于生成用于开发 ML 模型的综合数据集。先进的特征化策略(如蛋白质语言模型和图神经网络)能够有效捕捉复杂的序列 - 结构 - 功能关系,提高预测性能,同时捕捉序列和结构特征是这些策略成功的关键。

蛋白质语言模型(PLMs)的最新进展尤为显著,能够从有限的数据中提出有效的序列设计。在这种情况下,传统上因

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号