ParaDeep:基于序列的深度学习方法,用于残基级别的结合位点预测,该方法采用具有链感知能力的BiLSTM-CNN模型
《Frontiers in Bioinformatics》:ParaDeep: sequence-based deep learning for residue-level paratope prediction using chain-aware BiLSTM-CNN models
【字体:
大
中
小
】
时间:2025年11月06日
来源:Frontiers in Bioinformatics 3.9
编辑推荐:
抗体会中性化抗原,其表面暴露的补体决定区(CDR)上的残基构成结合位点(paratopes)。现有结构依赖方法计算成本高且适用性受限,序列基方法如Parapred虽无需结构数据但性能不足。ParaDeep框架创新性地融合双向LSTM与可变卷积核的1D CNN,通过链特异性训练(H/L/HL)和双编码策略(one-hot/可学习嵌入),在2807个抗体-抗原复合物数据集上系统评估了30种模型配置。实验表明:H链模型最佳MCC达0.842,L链0.772,HL混合训练性能中等。卷积核尺寸优化显示,130长度全卷积提升MCC约27%但计算量大,71尺寸次优配置平衡效率与精度。链特异性建模使H链模型在盲测中MCC超Parapred 27%,而L链模型依赖一热编码优化。该框架在无结构数据下实现高效预测,支持早期抗体发现、配体库分析和疗法设计。实施代码开源于GitHub。
抗体的结合区域预测是结构受限、高通量发现流程中的关键挑战。本文介绍了一种轻量且可解释的深度学习框架ParaDeep,可以直接从氨基酸序列中预测残基级别的结合区域。ParaDeep结合了双向长短期记忆网络(BiLSTM)和一维卷积层(CNN),以捕捉序列的长距离上下文信息和局部结合模式。通过系统评估30种不同的模型配置,包括编码方案、卷积核大小和抗体链类型(重链H、轻链L以及混合链HL),结果显示重链模型在五折交叉验证中表现最佳(F1=0.856±0.014,MCC=0.842±0.015),优于轻链模型(F1=0.774±0.023,MCC=0.772±0.022)。在独立的盲测数据集上,ParaDeep在重链上达到F1=0.723和MCC=0.685,轻链上达到F1=0.607和MCC=0.587,相对于序列基础的基线模型Parapred,MCC提升了27%。这些结果表明,重链能够提供更强的序列预测信号,而轻链则更能从结构上下文中受益。ParaDeep在重链上达到了与最先进的基于结构的方法相当的性能,但仅需序列输入,从而实现了更快的预测速度和更广泛的应用,无需3D建模的计算成本。其高效性和可扩展性使其特别适用于抗体发现的早期阶段、抗体库分析以及治疗设计,尤其是在缺乏结构数据的情况下。
本文介绍了ParaDeep的设计理念,其核心在于将BiLSTM和CNN结合,以捕捉抗体结合区域的序列依赖性和局部结合模式。BiLSTM能够处理双向上下文信息,从而捕捉抗体结合区域中可能远离序列但接近三维空间的残基之间的相互作用。CNN则通过不同大小的卷积核,检测序列中不同长度的局部模式,例如保守的生化结合模式。研究还探讨了不同编码方案(如one-hot编码和可学习嵌入)对模型性能的影响,以及卷积核大小对预测结果的重要性。
研究结果显示,one-hot编码在大多数配置中表现优于可学习嵌入,尤其是在重链和轻链模型中。这可能是由于one-hot编码能够保留残基的精确身份信息,而可学习嵌入可能在某些情况下因过多参数而增加过拟合的风险。同时,卷积核的大小对模型性能有显著影响,较大的核(如130个残基)能够更好地捕捉长距离依赖关系,而较小的核则更适用于检测局部模式。研究还发现,对于轻链,使用较长的卷积核可以显著提升模型性能,而重链则表现出更强的序列预测能力。
此外,研究还对比了现有方法在盲测数据集上的表现。ParaDeep在多个关键指标上优于Parapred,例如F1分数和MCC。这表明,ParaDeep在结合区域预测方面具有更高的准确性和鲁棒性,尤其是在处理类别不平衡数据时。与基于结构的方法如ParaSurf相比,ParaDeep无需结构输入,能够更广泛地应用于抗体发现的早期阶段,特别是在结构数据缺失或不完整的情况下。
研究的另一个重要发现是,链特定建模对于提高预测性能至关重要。重链模型在所有链类型中表现最佳,而轻链模型则受益于更长的卷积核。这一结果强调了抗体结构的复杂性,以及在预测结合区域时,对链特异性建模的重要性。ParaDeep的轻量设计和模块化结构使其能够高效部署在标准计算资源上,适用于学术研究和工业应用。
研究的局限性包括:训练数据主要由标准的Fab和Fv格式组成,对单链可变片段(scFv)、纳米抗体和合成抗体的泛化能力尚未测试;序列方法可能缺乏基于结构方法的原子级空间精度;类别不平衡可能导致罕见结合区域的预测偏差。未来的工作将包括扩展训练数据,整合注意力机制或图神经网络,以增强空间推理能力,以及探索预训练的蛋白质语言模型(如ESM-2或AntiBERTy)来提升残基嵌入的质量,同时保持模型的可解释性。
总之,ParaDeep为抗体结合区域预测提供了一种高效、可解释且无需结构信息的解决方案。其结合BiLSTM和CNN的优势在于能够同时捕捉序列的全局依赖性和局部结合模式,从而在不同链类型和不同卷积核大小下实现更高的预测性能。这一方法为抗体工程、结合位点分析和治疗设计提供了新的工具,特别是在缺乏结构数据的情况下,具有显著的实用价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号