解决数据偏差问题显著提升蛋白-配体结合亲和力预测的泛化能力

《Nature Machine Intelligence》:Resolving data bias improves generalization in binding affinity prediction

【字体: 时间:2025年10月22日 来源:Nature Machine Intelligence 23.9

编辑推荐:

  本研究针对PDBbind数据库与CASF基准数据集间的训练-测试数据泄露问题,提出了基于结构相似性过滤的PDBbind CleanSplit数据集。通过开发结合图神经网络与语言模型的GEMS评分函数,在消除数据偏差的条件下实现了SOTA结合亲和力预测性能,为计算药物设计提供了更可靠的评估基准。

  
在计算药物设计领域,准确预测蛋白-配体结合亲和力是开发小分子药物的关键环节。近年来,基于深度学习的评分函数在结合亲和力预测方面展现出巨大潜力,但一个隐藏的问题逐渐浮出水面:训练数据库PDBbind与广泛使用的评估基准CASF之间存在严重的数据重叠,导致模型性能被严重高估。这种训练-测试数据泄露使得许多看似优秀的模型在实际应用中泛化能力不足,严重制约了计算药物设计的可靠性。
为了揭开这一问题的神秘面纱,苏黎世联邦理工学院等单位的研究团队在《Nature Machine Intelligence》发表了最新研究成果。他们发现,传统的基于序列相似性的数据划分方法无法有效识别蛋白-配体复合物之间的结构相似性,导致近乎相同的复合物同时出现在训练集和测试集中。这种数据偏差使得模型可以通过简单的记忆而非真正的理解来获得高分,严重夸大了模型的真实性能。
研究团队开发了一种创新的结构相似性过滤算法,通过多维度评估蛋白-配体复合物的相似性。该算法综合考虑蛋白结构相似性(TM分数)、配体化学相似性(Tanimoto分数)以及结合构象相似性(口袋对齐配体RMSD),能够识别传统序列分析方法容易忽略的相似相互作用模式。
基于这一算法,研究人员创建了PDBbind CleanSplit数据集,严格消除了训练集与CASF测试集之间的数据重叠,同时去除了训练集内部的高度冗余复合物。这一数据集的构建为真正评估模型泛化能力奠定了基础。
在方法学方面,研究主要采用了以下关键技术:基于结构相似性的多维度过滤算法(结合TM分数、Tanimoto分数和配体RMSD);图神经网络架构GEMS(用于分子评分的高效图神经网络);蛋白质语言模型ESM2和Ankh以及化学语言模型ChemBERTa-2的特征提取;五折交叉验证的模型训练策略;PDBbind数据库(v.2020)和CASF基准数据集的结构相似性分析。
研究结果部分展现了该工作的多个重要发现:
PDBbind数据集过滤结果揭示了令人震惊的数据泄露程度。通过比较所有CASF复合物与PDBbind复合物,研究人员发现了近600个具有极高相似性的训练-测试对,涉及49%的CASF复合物。这些结构不仅共享相似的配体和蛋白结构,还具有可比配体定位和匹配的亲和力标签,为模型提供了近乎相同的输入数据点。
搜索算法实验进一步证实了数据泄露的严重影响。一个简单的搜索算法(寻找五个最相似的训练复合物并平均其亲和力标签)在未过滤的PDBbind上表现出与某些已发表深度学习评分函数相当的预测性能(Pearson R=0.716,RMSD=1.517)。而当使用PDBbind CleanSplit时,该算法的性能急剧下降,证明过滤有效消除了训练-测试相似性。
重新训练现有模型的结果更加引人深思。当在PDBbind CleanSplit上重新训练当前最先进的结合亲和力预测模型Pafnucy和GenScore时,它们的基准性能显著下降。Pafnucy的性能从RMSD=1.046下降到1.484,接近简单搜索算法的水平,而GenScore虽然相对稳健,但也出现了明显的性能下降。这一结果支持了研究假设:许多已发表结合亲和力预测模型的报告性能确实受到数据泄露的提升。
GEMS模型的表现则令人鼓舞。当在PDBbind CleanSplit上训练时,GEMS达到了极具竞争力的CASF2016基准性能(预测RMSD=1.308,Pearson相关性=0.803),显著优于在相同条件下训练的Pafnucy和GenScore。更重要的是,GEMS甚至超过了一些在完整PDBbind数据集上训练并因此从大量训练-测试数据泄露中受益的深度学习评分函数的报告性能指标。
消融研究为GEMS的优越性能提供了机制解释。当在原始未过滤的PDBbind上训练时,所有测试的GEMS模型变体即使在从输入数据中移除所有蛋白质信息后也能实现竞争性的CASF2016性能(RMSD=1.424)。然而,当GEMS在PDBbind CleanSplit上训练时,省略蛋白质节点会导致非常不准确的基准预测(RMSD=1.572)。这种显著的性能下降表明,当数据泄露和冗余减少时,模型必须依赖于对蛋白-配体相互作用的理解来进行准确预测。
在独立性验证方面,研究团队评估了模型在CASF2016基准数据集的一个子集上的性能,该子集即使在过滤训练数据之前也是独立的。令人印象深刻的是,在相同的独立子集上测试时,在PDBbind CleanSplit上训练的GEMS模型比在PDBbind上训练的模型表现更好(RMSD=1.367对比1.483),尽管训练数据集大小大幅减少,这表明在PDBbind CleanSplit上训练的模型的真实泛化能力确实更优。
语言模型嵌入的影响分析揭示了有趣现象。当在PDBbind上训练时,缺乏任何语言模型嵌入的GEMS基线模型在CASF2016测试数据集上表现最佳。加入语言模型特征导致交叉验证性能持续提高,但测试集性能没有相应改善。相反,当在PDBbind CleanSplit上训练时,没有语言模型特征的基线模型显示出相对较低的交叉验证和测试数据集性能,但引入这些特征会同时改进这两个指标。
研究的结论部分强调了该工作的多重意义。PDBbind CleanSplit通过显著减少训练冗余和与CASF基准的数据泄露,为训练结合亲和力预测模型提供了改进的基础。使用CleanSplit进行训练的影响在Pafnucy和GenScore的性能下降中变得明显,揭示了这些先前顶级模型的真实泛化能力远低于报告值。
相比之下,GEMS评分函数在PDBbind CleanSplit上训练时保持了高预测准确性,实现了与许多在原始PDBbind上训练并从中相关数据泄露中受益的深度学习结合亲和力预测模型相媲美的性能。凭借对蛋白-配体相互作用的理解,GEMS能够更好地泛化到严格的外部测试数据集。
该研究的创新性在于首次系统性地揭示并解决了PDBbind与CASF之间的数据泄露问题,提出了可靠的解决方案,并开发了在无数据泄露条件下仍能保持优异性能的新型评分函数。这项工作为计算药物设计领域设立了新的标准,强调了在模型开发和评估中避免数据偏差的重要性,为真正可泛化的蛋白-配体亲和力预测模型的发展指明了方向。
值得注意的是,GEMS的高效架构使其训练速度比Pafnucy快约25倍,比GenScore快100倍以上,这得益于稀疏的基于图的蛋白-配体相互作用建模和高效的GNN架构。结合从大语言模型的迁移学习,GEMS获得了对蛋白-配体相互作用的理解,因此能够更好地泛化到严格的外部测试数据集。
这项研究不仅解决了计算药物设计中的一个关键瓶颈问题,而且通过公开数据、代码和模型,优先考虑了可访问性,包括预计算的相互作用图数据集和相似性矩阵,以便快速重现结果。这些资源将为领域内研究人员提供宝贵工具,推动蛋白-配体结合亲和力预测向更可靠、可复现的方向发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号