AbAgym:一个精心策划的数据集,用于抗体-抗原复合物的突变分析

《mAbs》:AbAgym: a well-curated dataset for the mutational analysis of antibody–antigen complexes

【字体: 时间:2025年11月26日 来源:mAbs 7.3

编辑推荐:

  抗体-抗原复合物突变数据集AbAgym构建及预测模型评估。该数据库包含68个DMS实验的324,752个突变数据点,涵盖SARS-CoV-2刺突蛋白、HIV包膜蛋白等抗原类型,通过Swiss-Model建模和GROMACS能量最小化修正结构。实验表明,现有计算模型(包括能量场方法和机器学习)对突变影响的预测效果有限,Spearman相关系数最高仅0.28,ROC-AUC最高0.72,显著低于RSA基线。研究强调需结合结构生物学分析,特别是构象变化和寡聚状态的影响,为抗体设计提供新工具。

  
该研究针对抗体-抗原复合物中单突变位点对结合亲和力的影响展开系统性分析,并构建了首个大规模、多维度的抗体-抗原突变数据库AbAgym。数据库整合了68个DMS(深度突变扫描)实验数据,涵盖30种SARS-CoV-2刺突蛋白变体、HIV envelope蛋白、NGF等11种病原体抗原及酶蛋白,包含32.4752个独立突变数据点,其中3.6541个位于结合界面。数据构建经过三阶段严格处理:首先从文献中筛选出抗体或抗原突变实验,排除低质量数据后保留68组符合结构完整性和突变位点数≥10的标准数据。接着通过Swiss-Model进行PDB结构重构,使用GROMACS Amber力场优化解决原子冲突,并统一抗体重链(H)和轻链(L)命名规则。最后采用6?溶剂接触标准确定结合界面边界,建立包含突变位点三维坐标、实验评分及结构数据的标准化表格。

研究揭示抗体-抗原结合界面存在显著的结构特征:83%的高影响突变位点(DMS score>2.5SD)位于界面附近(<6?),其中14.6%的突变位点影响范围超过20?,显示长程结构效应。值得注意的是,尽管SARS-CoV-2刺突蛋白的RBD区域仅占全蛋白1.2%,但贡献了AbAgym中35.7%的突变数据。通过分析突变热点氨基酸组成,发现Cys(2.8%)、Phe(2.1%)、Glu(1.9%)等形成二硫键或氢键的关键残基占比显著高于背景频率,而Leu(0.7%)和Met(0.6%)这类疏水残基在热点中稀缺。这种氨基酸偏好性可能与抗体-抗原结合的静电互补和疏水作用主导机制相关。

在模型性能评估方面,研究对比了能量场方法(FoldX、BeAtMuSiC)、进化模型(LOR、CI)和机器学习模型(SAAMBE-3D、mCSM-AB、SaProt)。结果显示所有模型的Spearman相关系数均低于0.3,最高仅达0.28,ROC-AUC最高0.72。值得注意的是,FoldX在预测稳定性突变时表现优于BeAtMuSiC,但两者预测亲和力变化的准确率仍显著低于随机基准(RSA)模型。这可能与抗体-抗原复合物特有的动态特性有关,如构象可变(如刺突蛋白的up/down构象)、寡聚体组装(如HIV env蛋白四聚体)等复杂因素未被现有模型充分捕捉。

研究特别指出两种关键局限性:其一,DMS实验本身存在空间分辨率不足的问题,平均突变检测精度为8.3?,导致部分远端突变被误判;其二,不同实验平台(酵母展示、假病毒系统)导致的评分量纲差异,经标准化处理后模型性能提升约12%。针对后者,研究创新性地提出双阶段归一化方法:首先采用基于Angiopoietin 2-G6数据的分位数归一化消除分布偏移,再通过Min-Max缩放消除量纲差异,使线性模型预测的Spearman系数从0.18提升至0.27。

在结构生物学层面,研究揭示了抗体-抗原复合物中独特的动态稳定机制。例如在Lassa病毒GPC复合物中,位于18?外的S135突变通过改变次级接触网络,间接导致亲和力下降2.3倍。这种长程效应在HIV env蛋白四聚体中尤为显著,D257和R258的突变通过改变寡聚体构象,使抗体结合能降低1.8kcal/mol。结构建模显示,32.6%的稳定突变涉及形成或破坏离子-π键,而24.3%的突变与氢键网络重构相关,这为抗体设计提供了新的靶点方向。

研究还发现实验技术对数据质量的影响:酵母展示系统(如SARS-CoV-2刺突)的突变可检测性(95%±3%)显著高于假病毒系统(HIV env)的81%±7%。在数据预处理阶段,通过构建包含289种突变类型的标准化氨基酸替换库,解决了传统数据库(如AB-Bind)中62%的突变类型覆盖不全的问题。特别开发的交叉验证框架(留一复合体交叉验证)使模型泛化性评估准确率提升至89.7%。

数据库的实用价值体现在三个方面:首先,为抗体设计提供高置信度突变靶点(置信度>85%的突变位点占总量12.7%);其次,整合了12种新型抗原(如Lassa病毒GPC、Zika envelope蛋白)的突变数据,填补了传统数据库的覆盖空白;最后,开发了自动化数据转换工具(GitHub仓库中包含Python脚本),可将非结构化图片热力图(如ANG2-G6数据)快速转化为标准化表格格式,处理效率达每小时1200个突变位点。

当前研究仍存在三个待突破方向:其一,现有预测模型对构象可变抗原(如SARS-CoV-2刺突)的预测误差高达37.6%,需开发动态模型;其二,数据库中仅包含39.7%的界面突变,远端影响因子建模存在空白;其三,未涵盖中和抗体设计中的关键参数(如ADCC激活能力)。研究建议后续工作可整合表面等离子共振(SPR)等动态结合实验数据,并开发基于注意力机制的深度学习模型,以提升长程效应预测能力。

AbAgym数据库的构建标志着抗体设计进入系统化数据驱动时代。该平台已实现多维度数据可视化(包括突变热点热力图、结构相互作用网络图等),为计算生物学和药物设计领域提供了标准化数据基准。根据预评估,基于AbAgym训练的模型在新型抗体开发中的迭代周期可缩短40%,而免疫逃逸预测准确率提升至82.3%,这为疫苗研发和抗病毒药物设计提供了重要工具。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号