综述:改进B细胞表位预测

【字体: 时间:2025年10月02日 来源:Drug Discovery Today 7.5

编辑推荐:

  本综述系统评述了B细胞表位预测技术的最新进展,重点对比了抗体非特异性(antibody-agnostic)与抗体特异性(antibody-specific)方法的优劣,并创新性地将AlphaFold 3(AF3)与AbEMap结合,显著提升了预测精度(ROC AUC/PR AUC),为疫苗研发和抗体治疗提供了重要技术支撑。

  
引言
B细胞抗体表位是抗原上被抗体识别的特定区域。精确预测这些表位对于疫苗开发、诊断试剂研制和治疗性抗体设计具有核心意义。随着高通量单细胞测序和B细胞受体(VDJ) repertoire测序技术的进步,研究者能够获取大量与疾病相关的抗体序列,此时表位鉴定已成为当前研究的瓶颈环节。目前表位定位主要依赖X射线晶体学、突变扫描(如丙氨酸扫描)和噬菌体展示等实验技术,但这些方法或因耗时昂贵、或因无法提供原子分辨率细节而难以实现高通量应用。深度突变扫描(DMS)虽能系统性检测点突变对结合的影响,却可能因变构效应或蛋白稳定性变化而产生假阳性结果。
鉴于实验方法的局限性,开发低成本、高效率的计算生物学工具进行表位预测已成为领域热点。这些方法已从早期的基于物理化学特性(如柔性、疏水性)的简单序列倾向性标度,演进为复杂的机器学习(ML)模型。2005年Blythe与Flower的研究表明,近500种此类标度的预测效果仅略优于随机猜测,这一结论推动了更先进的序列建模方法的发展。BepiPred在2006年首次引入隐马尔可夫模型;后续版本BepiPred-2.0/3.0采用随机森林算法;而CBTOPE使用支持向量机;EpiDope和LBCE–BERT则基于神经网络和蛋白质语言模型进行序列模式学习。值得注意的是,约90%的B细胞表位是构象型(非连续)而非线性表位,这意味着需要依赖抗原的三维结构信息进行准确预测。
预测方法分类与挑战
结构预测方法可分为两大类:抗体非特异性方法(仅需抗原结构)和抗体特异性方法(需抗体与抗原共同信息)。前者如DiscoTope、SEPPA和ScanNet,虽应用广泛但可能误报多个潜在表位区域;后者如EpiPred、PiNet和AbEMap,通过整合抗体序列或结构信息,能更精确地定位特定抗体的结合界面。抗体特异性方法的优势源于表位本质是由特定抗体-抗原相互作用所定义,但其应用受限于抗体结构信息的完整性——实践中往往仅能获取抗体序列,需依赖AF2/AF3等复合物结构预测工具或对接算法先行建模。
性能评估指标
表位预测精度通常以X射线晶体学解析的抗体-抗原复合物结构为金标准,通过计算受体操作特征曲线下面积(ROC AUC)和精确召回曲线下面积(PR AUC)进行量化。抗原残基与抗体原子距离小于4–5?即被判定为真实表位残基。值得注意的是,不同研究采用的测试集和评估指标存在差异,导致方法间直接比较存在困难。
抗体非特异性方法
DiscoTope是应用最广泛的构象表位预测工具之一,其3.0版本通过结合几何特征与语言模型嵌入值提升了预测效能。SEPPA系列方法则创新性地采用“残基三角单元块”概念刻画蛋白表面局部空间特征,3.0版本在独立验证集中达到0.895的ROC AUC值。基于深度学习的ScanNet通过端到端训练三维原子点云数据,在多个基准测试中表现出色。
抗体特异性方法
EpiPred通过分子对接与能量优化预测表位;PiNet作为早期ML方法,采用图神经网络处理抗原-抗体界面;AbEMap则基于同源建模与对接生成复合物模型集群进行统计预测。本研究对AbEMap进行重要升级:采用AF3生成高精度抗体-抗原复合物结构替代传统同源模型,显著提升了预测可靠性。
基准测试与结果
采用ABAG-docking数据集中2021年9月30日后发布的复合物结构进行测试(避免AF2/AF3训练数据泄露)。评估显示,抗体特异性方法普遍优于非特异性方法,其中AF3增强版AbEMap在ROC AUC和PR AUC指标上达到最高水平(0.848/0.568)。统计检验(两样本t检验)证实其提升具有显著性(p<0.05)。
呼吸道合胞病毒案例研究
以呼吸道合胞病毒(RSV)F糖蛋白与三种抗体的复合物(PDB: 5TOJ, 6OE4, 8ULK)为案例,比较了AbEMap(使用真实结构)、AF3直接预测及DiscoTope 3.0的预测效果。结果表明:AF3+AbEMap能准确复现实验解析的表位轮廓,而DiscoTope 3.0虽预测出部分真实表位,但伴随大量假阳性区域。
计算效率分析
以PDB 8ULK(抗原长度449残基)为测试案例,抗体非特异性方法(如DiscoTope 3.0)仅需数分钟,而抗体特异性方法因涉及复合物建模,耗时显著增加(AF3+AbEMap需GPU运行数小时)。ML类方法普遍依赖GPU加速,传统分子对接方法则需CPU集群支持。
结论与展望
尽管现有预测方法尚未能完全替代实验验证,但近年来机器学习与结构预测技术的融合带来了显著突破。抗体特异性方法结合AF3等先进工具展现出更高精度,而数据泄露问题、训练集偏差和构象动态性仍是当前主要挑战。未来发展方向包括:开发更大规模的高质量基准数据集、整合动态构象信息、以及改进对抗体特异性的建模策略。通过持续优化算法与数据质量,计算预测工具有望成为实验表位定位的先导工具,加速免疫学研究与抗体药物开发进程。
作者贡献声明
郝宇(Hao Yu):原始稿撰写、可视化、软件实现与数据分析;黛安·约瑟夫-麦卡锡(Diane Joseph-McCarthy):文稿审阅与监督指导;桑多尔·瓦伊达(Sandor Vajda):研究构思、资金获取、数据管理、验证分析及项目协调。
致谢
本研究受美国国家普通医学科学研究所基金R35GM118078资助。
作者简介
郝宇(Hao Yu)是波士顿大学电气与计算机工程系四年级博士生,研究方向为生物分子系统建模与机器学习应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号