SLAB:蛋白质-配体结构的同时标记与结合亲和力预测
《Digital Discovery》:SLAB: simultaneous labeling and binding affinity prediction for protein–ligand structures
【字体:
大
中
小
】
时间:2025年12月13日
来源:Digital Discovery 5.6
编辑推荐:
本文提出了一种联合训练分类和回归任务的新框架SLAB,用于预测蛋白质-配体复合物的结合亲和力。通过整合具有活性标签和未测亲和力的无效配体数据,利用EGNN和SGNN网络模块,在PDBbind、登革热和寨卡病毒数据集上验证,结果显示RMSE、MAE等指标显著提升,分类准确率提高,有效处理数据不平衡问题,适用于药物筛选场景。
本文提出了一种名为SLAB(Simultaneous Labeling and Binding Affinity Prediction)的创新框架,旨在通过联合训练分类和回归任务来提升蛋白质-配体结合亲和力的预测精度。现有方法通常将分类(预测配体是否活性)和回归(预测具体亲和力值)作为独立任务处理,导致数据利用不充分,且难以捕捉两类任务间的互补性。SLAB通过共享网络模块学习特征表示,同时优化分类和回归损失,显著提高了模型的泛化能力和预测稳定性。
### 核心问题与解决方案
传统方法存在两大局限:
1. **数据利用率低**:仅使用具有明确亲和力值的活性配体进行训练,而大量通过单浓度筛选标记为无效的配体未被充分利用。
2. **任务割裂**:分类和回归模型独立训练,无法共享特征表达,导致对复杂分子互作模式的捕捉不足。
SLAB通过以下创新解决了上述问题:
- **联合优化架构**:将分类(预测活性/无效)和回归(预测亲和力值)整合为单一模型,共享网络特征提取模块。分类任务帮助过滤无效配体,提升回归模型的鲁棒性;回归结果又为分类提供补充信息,形成正向反馈。
- **动态活性标注**:针对实验中常采用的单浓度筛选(标记无效配体),提出 inactive assignment(IA)机制。通过设定合理的无效配体亲和力阈值(如pIC50=3),将无效配体标注为0、1或2等虚拟值,既兼容实验数据特点,又避免传统分类方法因数据分布偏态导致的过拟合问题。
- **轻量化设计**:在原有网络(如EGNN和SGNN)基础上增加分类头,仅新增约40个参数,降低计算复杂度,确保模型在实际药物筛选场景中的可扩展性。
### 实验验证与结果分析
#### 数据集与实验设计
研究采用三类数据集验证SLAB的普适性:
1. **PDBbind 2020**:包含23,496个实验验证的蛋白质-配体复合物,涵盖高分辨率晶体结构。
2. **Dengue和Zika蛋白酶靶点**:基于虚拟筛选生成大量复合物结构(Dengue含20,380个结构,Zika含8,840个结构),通过单浓度筛选标注活性配体,无效配体通过IA机制处理。
3. **SARS-CoV-2主蛋白酶**:补充验证模型在新型病毒靶点中的适用性。
#### 关键性能指标对比
1. **PDBbind数据集**(测试集为CASF-2016):
- SLAB框架下EGNN模块的RMSE(1.2883)和MAE(1.023)优于独立回归模型(EGNN: 1.3113,SGNN: 1.3950),且r2系数(0.6380)和Pearson相关系数(0.8051)提升约3%-5%。
- 散点图显示,高亲和力配体(>10)的预测误差显著降低,表明分类模块有效抑制了模型对低活性配体的过度拟合。
2. **Dengue蛋白酶数据集**:
- SLAB(EGNN)的RMSE(1.4978→1.4978 vs 1.4978)未变化,但MAE(1.2208→1.0315)降低15.7%,r2系数(0.6287→0.6950)提升10.6%。
- 精度-召回曲线显示,联合训练的AUC(0.8136)较仅分类模型(0.7352)提高11%,尤其在召回率>0.7时表现更优。
3. **Zika蛋白酶数据集**:
- SLAB(EGNN)的RMSE(1.2282→1.0679)降低13.5%,MAE(0.9306→0.7882)降低15.6%,r2系数从-0.5615提升至-0.1804(负值改进幅度达67%)。
- 分类模块虽未直接标注(因测试集均为活性配体),但回归性能提升间接验证了模型对无效配体的判别能力。
#### 方法有效性验证
- ** inactive assignment(IA)机制**:通过设置IA=0、1、2,发现IA=2时RMSE达到最优(1.0791),且分类准确率(85.16%)与回归精度(r2=0.6044)平衡最佳。
- **无效阈值(IT)的影响**:当设置IT=3(即pIC50≤3为无效)时,联合训练的模型在RMSE(1.1009)和MAE(0.8146)上优于单一任务模型,同时AUC(0.7750)较仅分类模型(AUC=0.6984)提高10.7%。
- **轻量化验证**:模型在GPU集群(4×AMD MI300A)训练时,EGNN-SLAB仅需12,569个参数,且训练稳定期缩短至100个epoch,验证了架构的效率。
### 技术优势与局限
#### 优势总结
1. **数据融合效应**:通过共享网络模块,分类任务可为回归提供先验知识(如排除无效配体),回归结果又为分类提供更精细的亲和力梯度信息。
2. **抗噪声与泛化能力**:分类模块通过标注无效配体(IA=0/1/2),抑制了回归模型对低亲和力配体的过度拟合,在Dengue数据集中使RMSE降低24.1%。
3. **灵活适配性**:框架可集成多种网络模块(如EGNN擅长空间对称性建模,SGNN擅长局部化学特征提取),适配不同结构数据需求。
#### 局限性分析
1. **测试集平衡性问题**:在Zika数据集中,测试集无无效配体,导致分类模块验证受限,需进一步研究如何动态调整无效标注策略。
2. **阈值依赖性**:无效阈值(IT)和IA值的设定直接影响性能,需结合具体应用场景优化参数。
3. **计算资源需求**:EGNN模块虽轻量化(仅增加40个参数),但训练时间仍较长,需优化分布式训练策略。
### 应用场景与未来方向
SLAB框架在以下场景具有显著价值:
- **药物虚拟筛选**:结合分类模块快速过滤无效配体,提升数据库筛选效率。
- **结构预测辅助**:通过回归结果指导分子对接,减少无效构象生成。
- **多靶点药物开发**:可扩展至多蛋白复合物结构,如Dengue病毒多蛋白酶协同作用网络。
未来工作可聚焦于:
1. **动态阈值自适应**:根据任务需求自动调整IT值,减少人工干预。
2. **跨数据集迁移学习**:利用PDBbind预训练模型,通过微调适配新靶点。
3. **多任务联合优化**:整合亲和力预测、构象生成、毒性评估等多任务。
该研究为结构生物信息学提供了新的方法论,特别在应对大规模虚拟筛选中“无效配体”占多数的挑战时,展现了独特优势。实验证明,SLAB框架能有效平衡分类与回归的精度损失,为药物发现提供更可靠的数据驱动工具。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号