AbDesign数据库:抗体点突变体与相关结构揭示机器学习模型在结合预测中的泛化局限性

【字体: 时间:2025年10月09日 来源:mAbs 7.3

编辑推荐:

  本文介绍了AbDesign数据库,该资源整合了7种抗原及其对应抗体的点突变数据(通过ELISA测定)与晶体结构信息,系统性评估了当前前沿的亲和力预测算法(如DSMBind、RDE-PPI等)。研究指出,现有机器学习模型在预测单点突变效应时存在显著局限性,而传统经验性物理方法(如FoldX)在识别保留结合的突变体方面表现更优。这一发现凸显了构建大规模、分子多样性高且实验标准统一的数据库(如AbDesign)对推动抗体药物设计的重要性。

  
AbDesign数据库的构建与意义
抗体作为天然进化的分子识别支架,能够结合多种表面,其可设计性对于生物制剂的发展至关重要。计算方法的进步有望加速抗体药物研发进程,但抗体-抗原相互作用的建模仍面临巨大挑战,其中数据匮乏是主要障碍之一。现有的亲和力数据集通常包含少量实验测量值,且不同分子间的测量方法缺乏标准化。为了应对这些问题,研究人员开发了AbDesign数据库,该数据库包含7种抗原(每种抗原对应两种抗体),并通过ELISA技术测量了CDR-H3结合残基的多种点突变。每个母体复合物均具有已知的晶体结构,为后续计算分析提供了坚实基础。
材料与方法
抗原/抗体选择与突变策略
研究团队基于蛋白质数据库(PDB)中已有的共复合物结构选择抗体和抗原,确保从明确的结构配置出发,任何预测误差均可归因于下游模型。选定的PDB结构需满足抗原易于获取,且每种抗原至少有两种不同的抗体。最终,研究人员确定了7种目标抗原,每种抗原对应两种结构不同的抗体,并计划通过96孔板对每种靶点抗原的抗体变体进行测试。
突变策略聚焦于CDR-H3中与抗原重原子距离小于4.5?的残基,通过系统性点突变,在14个复合物上创建了658个单点突变体,同时包含14个野生型(WT)对照测量,总计672个变体。由于不同抗体的接触残基数量不一致,且每孔板只能容纳96个变体,研究人员采用抽样方案均匀选择突变(半胱氨酸除外),力求覆盖18种突变氨基酸类型。若无法实现全面覆盖,则手动调整变体选择,以保持数据集的异质性。尽管因实验规模限制无法对所有位置的每种可能突变进行系统覆盖,但该数据集的采样偏差仍低于其他抗体-抗原数据集。
抗体生产与纯化
所有抗体均通过Icosagen的QMCF技术平台生产。VH和VL插入片段被克隆到含有IgG1重链恒定区和κ轻链恒定区的pQMCF双顺反子表达载体中,并通过化学转染导入CHOEBNALT-1E9细胞。细胞在96深孔板中的CHO TF培养基中培养,最后通过离心去除细胞,并使用Mag Sepharose? PrismA磁珠和KingFisher Flex纯化系统从细胞培养上清中纯化抗体。纯化后的抗体通过Zeba? Spin脱盐板置换到PBS缓冲液(pH 7.4)中。
ELISA测量
所有测量均采用统一的ELISA协议,以确保数据的直接可比性。抗原以1?μg/mL的浓度包被96孔板,4°C孵育16–20小时后洗涤,并用含2% BSA的PBS缓冲液封闭。随后,加入系列稀释的抗体变体(起始浓度1?μg/mL),室温孵育1小时后加入辣根过氧化物酶标记的二抗,最后加入TMB底物显色,并在450?nm处测量吸光度。每个测量值均通过与同一板上WT抗体的吸光度比值进行标准化,以捕获突变体结合强度相对于母体的变化。
结构建模
从RCSB PDB下载了WT复合物的晶体结构,并进行清理(去除氢原子、替代位置原子,并从1开始重新编号)。使用RIOT工具将抗体链修剪至可变区,并手动选择正确的重链-轻链-抗原链组合。清理后的PDB文件作为两种结构建模流程的输入:基于ABodyBuilder2(ABB2)的流程和基于构象的流程。ABB2是一种神经网络,可预测抗体序列的坐标,并将预测的突变模型与清理后的结构合并。在构象采样中,将最常见侧链替换到清理后的结构中。
ABodyBuilder2结构预测
ABB2用于建模WT抗体及每个单点突变体的结构。该模型使用重链和轻链序列作为输入,通过四个不同的深度学习模型生成一组多样化的结构预测,最终选择最接近整体平均值的结构。预测后通过OpenMM和AMBER14力场进行能量最小化,并使用pdbfixer解决严重的空间冲突,同时确保肽键保持反式构型。
构象基于的结构预测
第二种突变结构预测流程不涉及深度学习模型,而是利用旋转异构体库进行采样。研究人员从WT晶体结构出发,针对指定的单点突变,用突变氨基酸的侧链替换原始残基侧链,选择无冲突且出现频率最高的构象作为代表,随后通过ABB2的refine功能进行优化。
聚类程序与代表选择
为了构建全面的侧链构象数据库,研究团队收集了RCSB数据库中的所有抗体结构,根据IMGT?编号进行重新编号,并通过序列一致性聚类进行去重。随后,提取每个IMGT?位置的标准氨基酸侧链原子坐标,基于主链原子进行对齐,并计算所有侧链构象之间的RMSD值。通过这些RMSD距离进行层次聚类,并为每个组选择代表性构象,最终构建了一个依赖于残基类型和位置的构象数据库,用于在抗体设计过程中为突变位置提供合理的侧链放置建议。
最终结构数据集
最终的三维结构集包括多个变体,用于后续的结构和计算分析。其中包括原始WT晶体结构、经ABB2 refine流程优化的结构、ABB2生成的WT结构及其单点突变变体。这些模型可直接应用于基于结构的能量计算和机器学习工作流。
结构预测质量
两种建模流程均假设突变体的构象反映了晶体结构的天然构象。由于缺乏可靠的方法验证这一假设,研究人员通过计算主干RMSD评估了建模结果的准确性,发现在大多数情况下(98%),建模结果的RMSD小于0.5?,表明建模精度良好。
亲和力模型基准测试
研究人员选择了三种现代机器学习模型进行基准测试:DSMBind、Binding-DDG-predictor和RDE-PPI。为了与经验性方法进行比较,还引入了FoldX的预计算数据点。DSMBind是一种基于SE(3)去噪评分匹配的无监督能量模型,其监督变体结合了ESM-2序列嵌入,并在SKEMPI的抗体-抗原子集上进行了微调。Binding-DDG-predictor采用基于注意力的几何神经网络预测突变引起的结合能量变化,而RDE-PPI则是一种无监督方法,通过分析侧链构象变化预测ΔΔG。所有模型均使用统一的突变规范文件进行处理,确保输入的一致性。
公开数据集:SKEMPIv2和AB-Bind
SKEMPIv2和AB-Bind是目前抗体设计/亲和力成熟任务中最广泛使用的数据集,它们整理了PDB中与特定突变相关的亲和力测量数据。本研究使用了经过过滤的SKEMPIv2和AB-Bind子集,仅保留完整(重链和轻链)的抗体-抗原复合物,并进行去重处理。
去重
SKEMPI和AB-Bind中包含同一组突变的多个数据点,这些重复通常是由于使用不同方法(如KinExA和ELISA)或在不同温度下测量所致。研究人员通过选择包含更多测量细节的数据点,并对方法和温度进行去重,确保基准测试的公平性。
SKEMPI“仅训练”子数据集的构建
为了公平比较不同模型的性能,研究人员构建了一个“仅训练”子数据集,该数据集包含了所有评估模型训练过程中使用的SKEMPIv2数据的交集。最终,通过取RDE-PPI第0折训练集与DSMBind训练集的交集,得到了包含336个数据点的公共集合,用于后续分析。
结果
AbDesign的构建
该数据库包含14个抗体-抗原复合物(7种抗原,每种抗原对应两种抗体),所有复合物均具有公开可用的结构。通过对CDR-H3结合残基引入异质性点突变,并通过统一的ELISA协议测量其结合活性,研究人员最终获得了658个突变体数据,平均每个抗体包含47个突变。该数据集是目前最大的抗体-抗原点突变数据集,尽管规模仍不足以满足机器学习模型训练的需求,但其测量数据的一致性和多样性为模型评估提供了重要资源。
SKEMPI、AB-Bind和AbDesign的对比
研究人员从数据点数量和突变类型分布两个层面对比了SKEMPIv2、AB-Bind和AbDesign数据集。SKEMPI是数据量最丰富的资源,但其包含非抗体数据点;AB-Bind则专注于抗体结合亲和力。AbDesign与这两个数据集的PDB重叠很少,仅有一个结构与SKEMPI共享,表明AbDesign提供了一个结构和突变独立的数据集,非常适合评估在SKEMPI上训练的机器学习模型的泛化能力。
在突变类型方面,SKEMPI和AB-Bind中存在明显的丙氨酸扫描偏倚,而AbDesign的突变分布更为均匀。尽管由于实验限制,某些氨基酸类型(如F、L、M、N、Q)的采样频率较低,但研究人员通过优先考虑物理化学多样性确保了数据集的代表性。
多数复合物对点突变具有弹性
通过ELISA测量,研究人员发现大多数抗体复合物对点突变表现出一定的弹性。以结合保留值(突变体与WT的ELISA比值)为指标,大多数突变体的值集中在WT附近或趋向于零,表明点突变具有广泛的效果谱。其中,ipilimumab(6RP8)表现出高度的突变弹性,而1BVK则几乎所有突变均有害。随机点突变的结果显示,平均26%的突变在结合保留值阈值设为1时仍保留结合,当阈值降至0.9时,这一比例升至51%。这表明在计算设计中,随机点突变的基线准确率较高,约为50%。
机器学习能量模型的基准测试
研究人员在SKEMPI(完整和“仅训练”子集)、AB-Bind和AbDesign上测试了三种机器学习模型的性能。结果显示,这些模型在训练数据集上表现良好(Spearman ρ约为0.4–0.7),但在AbDesign上的预测相关性接近零(ρ约为0.0–0.1)。这一结果表明,现有机器学习模型在面对训练分布外的数据时泛化能力有限。此外,模型性能对结构预测方法(构象替换或ABB2)的依赖性较高,突显了准确结构预测的重要性。
RDE-PPI在多个数据集上表现最为一致,尤其是在AbDesign上。研究人员进一步分析了其在不同训练折上的预测变化,发现其在SKEMPI和AB-Bind上的预测较为一致,而在AbDesign实验结构上的表现最差。这一发现再次强调了数据集偏差对模型性能的影响。
FoldX预测与AbDesign测量的良好相关性
作为经验性物理方法的代表,FoldX在AbDesign数据集上表现出良好的预测一致性。研究人员从已发表的数据集中获取了9个PDB的FoldX预测值,并将其与实验测量值进行对比,发现FoldX的预测与结合保留值之间存在显著相关性(Pearson R约为0.3–0.5),优于所有测试的机器学习模型。这一结果表明,基于物理原理的方法在面对新颖抗体-抗原对时具有更好的泛化能力。
讨论
全计算抗体设计正逐渐成为可能,但其最终成功仍依赖于结构注释清晰、实验标准统一的亲和力数据。AbDesign数据库通过提供658个CDR-H3单点突变体,以及与之相关的高分辨率晶体结构或一致优化的模型,将结构明确的抗体突变体数量增加了一倍以上,为抗体设计领域的基准测试提供了重要资源。
本研究的结果表明,现代机器学习预测因子在训练数据集上表现良好,但在面对非重叠PDB复合物时性能显著下降。这一局限主要源于现有数据集中特定突变类型(尤其是丙氨酸扫描)的过度代表,导致模型出现训练偏差。相比之下,基于力场的经验性程序(如FoldX)在AbDesign上保持了合理的预测能力,这表明基于物理原理的方法在抗体-抗原相互作用预测中仍具有不可替代的价值。
为了弥补数据驱动与第一性原理方法之间的差距,新兴的混合框架(如METL)将经验能量项特征直接整合到Transformer架构中,使模型能够从大规模结构语料库中学习统计模式,同时捕捉基本的能量贡献。这类方法已在多种蛋白-蛋白接口上表现出更好的泛化能力,并有望在类似AbDesign的保留集上实现更高的鲁棒性。
除了基准测试,AbDesign对抗体工程实践也具有重要启示。在亲和力成熟过程中,快速筛选候选突变至关重要。本研究的结果表明,力场方法(如FoldX)可作为可靠的初步过滤器,优先选择实验可能确认为中性或增强结合的替代方案。随后,应用机器学习模型(最好在扩展的标准化数据集上微调)可进一步优化排名,捕捉高阶或序列上下文效应。
为了支持这些混合工作流程,未来的数据生成工作应遵循AbDesign的严谨性。引入更精确的SPR衍生动力学参数(kon、koff)和热稳定性测定,将提供比ELISA比值更丰富的生物物理注释。同时,扩展突变覆盖范围以包含双点或三点变体,并保持统一协议,将有助于揭示亲和力成熟中关键的上位性相互作用。最后,在保留的AbDesign子集上建立社区范围的盲测挑战,将鼓励透明、可比较的评估,并推动方法改进。
尽管本研究的基准测试主要关注基于结构的方法,但仅基于序列的ΔΔG预测策略也是一种重要的补充方法。这类模型通常在大规模数据集上训练,无需依赖结构建模即可捕捉突变效应。初步分析表明,监督式序列预测因子在数据覆盖充足时可实现有意义的相关性,但零样本泛化仍是一个重大挑战。因此,对AbDesign上仅基于序列的预测因子进行系统评估将是未来工作的重要方向。
总之,AbDesign研究表明,一个规模适中但精心策划的数据集能够揭示计算抗体亲和力预测的当前局限,并重申基于物理的计算的持久价值。随着领域向真正的从头抗体设计迈进,扩展标准化数据、混合建模框架和严格基准测试的协同作用,对于将计算承诺转化为临床现实至关重要。为了助力这一努力,研究人员将AbDesign数据库向社区公开。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号