通过构建一个无偏数据集CDPN来对基于序列的化合物-蛋白质相互作用预测方法进行基准测试

《Journal of Chemical Information and Modeling》:Benchmarking Sequence-Based Compound–Protein Interaction Prediction through Constructing a Debiased Data Set CDPN

【字体: 时间:2025年11月21日 来源:Journal of Chemical Information and Modeling 5.3

编辑推荐:

  精准预测化合物-蛋白质相互作用(CPI)对药物发现至关重要,但现有数据集常因结构偏差和标签不平衡导致模型泛化能力不足。本研究提出CDPN协议,通过化合物聚类降样和生成潜在负样本平衡标签分布,构建了覆盖广泛化学空间和蛋白质家族的基准数据集。系统评估了12种深度学习模型,发现结合KPGT化合物编码器与Ankh大语言模型的KPGT-Ankh组合在虚拟筛选中表现最佳,尤其在未见目标场景下AUC提升达7.8%。同时,开发DeepSEQreen平台整合Top模型,提供用户友好的药物发现工具,并揭示注意力机制在解释绑定位点上的局限性。研究为解决CPI模型偏差问题提供了新范式。

  在药物发现过程中,化合物与蛋白质相互作用(Compound–Protein Interactions, CPIs)的准确预测至关重要。然而,现有的数据集往往存在偏差,这些偏差会限制模型的泛化能力,从而影响其在实际药物研发中的应用效果。为了解决这一问题,研究团队提出了一种新的数据集构建协议——基于聚类的下采样与假负样本生成(Clustering-based Down-sampling and Putative Negatives, CDPN),旨在通过平衡标签分布和提升化学空间的多样性,为CPI模型提供一个更公平的基准数据集。CDPN方法通过化合物聚类级别的下采样和从未探索的化学空间中生成假负样本,显著减少了数据集中的偏差,从而提高了模型的预测能力和泛化性能。

### 化合物与蛋白质相互作用预测的重要性

小分子化合物构成了超过70%的已批准药物,其疗效依赖于与特定蛋白质靶点的相互作用。因此,对CPI的准确预测对于识别具有潜力的化合物、优化药物候选结构以及预测药物的相互作用谱,以预测潜在的脱靶效应或发现药物新用途,具有重要意义。现有的CPI预测方法主要分为两类:基于知识的方法和基于数据驱动的方法。前者如分子对接和分子动力学(MD)模拟,能够估计化合物与蛋白质的结合构型和动态过程,但其应用受到对接评分函数和计算成本的限制,难以进行大规模化学空间探索。后者则通过深度学习技术,利用大规模高质量数据集来学习跨多个靶点的结合模式,具有更高的准确性和可扩展性。目前已有超过40种基于序列的CPI方法,涵盖多种策略,包括基于蛋白质序列描述符(如DeepDTI和DeepAction)、基于氨基酸级嵌入(如DeepDTA、GraphDTA和DrugBAN)、基于序列片段表示(如DeepAffinity、MolTrans和BACPI),以及结合预测结构信息的方法(如DrugVQA和STAMP-DPI)。此外,一些模型还利用了最先进的蛋白质语言模型(Protein Language Models, PLMs),如AI-Bind、ConPLex和TransformerCPI2.0。

### 数据集偏差问题及其影响

尽管已有大量研究致力于开发CPI预测模型,但一个根本性挑战仍然存在:深度学习模型往往依赖于数据集中的标签偏差(即正负样本比例)来“捷径”进行预测,而不是真正学习化合物与蛋白质之间的结合机制。这一问题主要源于两个相互关联的因素:一是可靠的负样本不足;二是公共数据库(如DrugBank)中化合物化学空间的代表性不足。虽然近年来已有研究尝试解决数据偏差问题,如TransformerCPI2.0通过仅保留同时具有正负标签的化合物来减少配体偏差,但其未能有效解决标签分布不平衡的问题。AI-Bind引入了一种基于网络的负样本采样策略,但其仅覆盖约8000种化合物,限制了其在大规模应用中的实用性。此外,将CPI训练数据集扩展到大型数据库(如BindingDB和ChEMBL)会带来新的挑战,包括由专利驱动的化合物簇导致的相似性偏差以及实验方法随时间变化带来的时序偏差。

### CDPN数据集构建方法

为了解决上述问题,研究团队提出了CDPN数据集构建方法。该方法通过三个协同步骤,系统性地构建了一个去偏差的CPI基准数据集,同时保留了实际应用的可行性。首先,利用化学空间聚类技术,将950万种PubChem化合物划分为75745个结构上不同的簇,以确保涵盖常见的骨架和稀有的化学类型。其次,采用聚类感知的下采样策略,对每个靶点保留最多3个与该聚类相关的正负样本,从而减少特定骨架的过度表示,避免模型在训练过程中依赖这些偏差进行预测。第三,生成假负样本以平衡靶点和化合物级别的标签分布。对于正样本比例显著偏高的靶点,假负样本从无记录相互作用的化合物簇中选取;对于仅标注为正样本的化合物,则从与其已知靶点家族无关的蛋白质家族中选取假负样本。最终,CDPN数据集包含3879个蛋白质靶点、289287种独特的化合物和741806个相互作用记录,其中正样本占38.61%,负样本占61.39%。与原始数据集相比,CDPN显著减少了骨架的过度表示,降低了37.46%的偏差。

### CDPN对模型性能的影响

为了验证CDPN的有效性,研究团队使用该数据集重新训练了多个经典的CPI模型,并在多个验证场景中评估其性能。结果显示,CDPN显著提升了模型在虚拟筛选任务中的表现。例如,在DUD-E数据集(包含86个已知靶点和16个未知靶点)中,使用CDPN数据集训练的模型在严格的评估指标(如BEDROC和EF1%)上均优于原始数据集训练的模型。这表明CDPN不仅有效缓解了标签分布的不平衡问题,还显著提升了模型的泛化能力。此外,CDPN还改善了模型对不同靶点和化合物的预测稳定性,避免了模型在训练过程中过度依赖正样本比例,从而提高了预测结果的可靠性。

### 模型的组件分析与性能评估

研究团队进一步通过系统性的消融实验,分析了CPI模型中各个组件(化合物编码器、蛋白质编码器和交互解码器)对模型性能的影响。实验涵盖了13种化合物编码器、5种蛋白质语言模型(PLMs)以及6种交互解码器,旨在识别不同应用场景下模型的关键组成部分。结果表明,某些编码器在特定任务中表现出色,例如KPGT(基于图的编码器)在已知簇与未知靶点的场景中表现良好,而Mol2Vec(基于SMILES的编码器)则在未知簇的场景中展现出更高的性能。对于蛋白质编码器,研究发现尽管参数规模较大的模型(如ESM2-15B)理论上应具备更强的表示能力,但在实际应用中,参数规模较小的模型(如Ankh Large)在某些任务中表现出色,可能与其在蛋白质特异性上的优化有关。此外,交互解码器的性能分析表明,尽管注意力机制旨在帮助模型识别关键的结合位点,但在实际应用中并未带来显著的性能提升,反而在某些情况下导致了模型对非结合区域的过度关注,这可能与注意力机制缺乏直接监督有关。

### DeepSEQreen:一个面向药物发现的集成平台

为了推动CPI预测技术的广泛应用,研究团队将CDPN数据集上表现优异的模型集成到一个名为DeepSEQreen的无代码Web服务器中。DeepSEQreen旨在为药物发现提供一个用户友好的平台,使非编程背景的用户也能轻松使用先进的AI技术。该平台不仅支持化合物与蛋白质相互作用的预测,还提供了关键的化学属性计算功能,以帮助用户筛选潜在的药物候选分子。此外,DeepSEQreen还鼓励社区反馈,以进一步评估现有CPI模型的优缺点,推动技术的持续改进。该平台已上线,用户可以通过输入感兴趣的蛋白质序列、选择预设模型或由平台推荐模型,并上传或选择化合物库,进行大规模的虚拟筛选任务。

### 研究的意义与未来展望

本研究通过CDPN数据集的构建,为CPI模型的发展提供了一个更加公平和多样化的基准。CDPN不仅解决了现有数据集中的标签偏差问题,还提升了模型在未知靶点和化合物上的泛化能力,从而增强了其在药物发现中的实用性。此外,研究团队通过消融实验揭示了不同模型组件在不同场景下的表现差异,为未来CPI模型的优化提供了指导。尽管CDPN在一定程度上缓解了标签偏差,但仍有部分靶点或化合物簇的标签分布极不平衡,这可能反映了靶点的可药性或化合物的活性特性。因此,未来的研究可以探索如何在这些极端不平衡的场景中进一步优化模型性能。同时,随着蛋白质结构数据的积累,将结构信息与序列信息结合,可能有助于提升模型的性能和可解释性。此外,研究团队还指出,CPI预测在回归任务(如化合物-蛋白质亲和力预测)中面临更大的挑战,需要开发专门的回归平衡数据集以推动相关模型的发展。总之,本研究不仅提出了一个有效的CPI数据集构建方法,还为未来的模型优化和药物发现提供了重要的参考和工具。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号