扩充 BindingNet 数据集:深度学习提升配体结合构象预测的关键之举

【字体: 时间:2025年01月23日 来源:npj Drug Discovery

编辑推荐:

  在药物研发中,蛋白质 - 配体复合物结构和结合亲和力数据对基于结构的药物设计至关重要。研究人员构建 BindingNet v2 数据集,评估其在结合构象生成中的有效性。结果显示能提升 Uni - Mol 模型泛化能力,对药物研发意义重大。

  在药物研发的广袤领域中,蛋白质 - 配体相互作用的研究宛如一座灯塔,照亮了新型药物开发的道路。蛋白质 - 配体复合物的结构能够清晰地揭示蛋白质与配体之间原子层面的相互作用,这对于确定新的药物靶点、分析构效关系(SAR)以及优化先导化合物以提高药效起着关键作用。不仅如此,大量且多样的蛋白质 - 配体复合物数据集在深度学习(DL)模型的训练中也具有不可替代的地位,能够助力诸如结合构象预测、结合亲和力预测和分子生成等重要任务。
然而,现实却给这一领域的发展泼了一盆冷水。高质量的蛋白质 - 配体复合物结构数据十分有限。在众多的数据来源中,蛋白质数据库(PDB)虽然是目前最大的包含实验测定结构的数据库,但它主要聚焦于生物分子结构,其中小分子的数量相对较少,而且并不直接关联复合物结构的实验结合亲和力数据。像 Binding MOAD、PDBbind 等手动整理的数据集,虽然在一定程度上弥补了这一缺陷,但仍然存在着数量不足、多样性欠缺等问题。此外,一些通过计算构建的数据集,如 eModel - BDB,还存在着结构可靠性的问题。在这样的困境下,研究人员决心突破重重障碍,开展一项极具意义的研究。

清华大学和北京生命科学研究所的研究人员挺身而出,致力于解决这些难题。他们通过改进基于模板的建模方法,构建了 BindingNet v2 数据集,旨在为蛋白质 - 配体相互作用的研究提供更丰富、更可靠的数据支持。经过不懈努力,研究取得了丰硕的成果。研究表明,使用 BindingNet v2 数据集训练的 Uni - Mol 模型在预测新型配体的结合构象方面,泛化能力得到了显著提升。这一成果为基于结构的药物设计提供了更有力的工具,对推动药物研发进程具有重要意义。该研究成果发表在《npj Drug Discovery》上,为该领域的发展注入了新的活力。

研究人员为开展这项研究,运用了多个关键技术方法。首先是基于模板的建模技术,通过特定的筛选标准构建模板数据集,并从 ChEMBL(v33)中提取蛋白质 - 配体对;利用 SHAFTS 计算 3D 分子相似性,得出混合分数;通过层次化模板建模方法,包括确定最大公共子结构(MCS)覆盖率、叠加关键子结构、采样构象、最小化和评分等步骤构建复合物结构模型。此外,还使用了分子对接技术(如 Glide)进行基准测试,并利用 Uni - Mol 模型进行配体结合构象生成的训练和推断。

下面来详细看看研究结果:

  • 采样能力的比较分析:研究分析了层次化模板建模和分子对接方法的采样能力,发现两者的采样能力都与模板相似性相关。当使用高度相似的模板时,层次化模板建模结合最小化方法的成功率可达 92.65%,但模板相似性降低时,成功率会下降。不过,在所有 MCS 覆盖区间内,层次化模板建模方法的表现都优于 Glide 交叉对接(Tc)和 Glide 交叉对接(MCS)方法,且该方法采样的构象数量更少。
  • 评分性能的比较分析:在配体构象采样后,研究评估了不同采样方法和评分方法组合下,排名靠前的结合构象的准确性。结果表明,所有方法在选择构象的准确性上都有显著下降。总体而言,层次化模板建模结合 MM - GB/SA 方法正确采样了 77.78% 的复合物结构,混合分数对其精确评分的比例为 56.46%。混合分数在对配体结合构象进行排名时表现更优,尤其是当 MCS 覆盖率低于 0.6 时。研究人员根据混合分数将复合物结构分为高、中、低置信度,其顶级结合构象的成功率(配体 RMSD < 2 ?)分别为 73.79%、33.33% 和 16.22%。
  • 案例研究:研究人员通过具体案例,探索了低配体相似性和低 MCS 覆盖率的模板在建模近天然结合构象中的价值。在二肽基肽酶 - 4 和补体因子 D 的案例中,尽管配体的拓扑指纹相似性较低,但特定的功能基团帮助候选化合物与蛋白质形成关键相互作用,从而成功建模近天然结合构象。在 VEGFR 酪氨酸激酶的案例中,通过片段策略也成功得到了近天然结合构象。这些案例表明,利用形状和药效团特征相似性比单纯依赖 MCS 覆盖率或配体拓扑指纹相似性更有效。
  • BindingNet v2 和网络服务器:BindingNet v2 数据集得到了显著扩展,包含 689,796 个复合物结构,覆盖 1794 个靶点和 475,309 个独特配体。其中,超过 74% 的靶点与 10 个以上化合物相互作用,75% 的独特小分子与单个蛋白质结合,也存在 1288 个独特分子与 10 个不同蛋白质结合的情况。该数据集根据混合分数对结构进行分类,不同子集的实验结合亲和力分布相似。BindingNet v2 可通过网站http://bindingnetv2.huanglab.org.cn/访问,提供了多种功能和数据下载。
  • 使用 BindingNet v2 训练深度学习模型:研究人员评估了基于 BindingNet v2 数据集训练的 DL 模型生成结合构象的能力。常用的训练数据集与 PoseBusters 数据集存在高度相似的配体和结合口袋,这影响了模型的泛化能力评估。通过基于配体相似性的数据分割方法评估 Uni - Mol 模型,发现随着训练数据集配体相似性降低,模型成功率显著下降。而使用 BindingNet v2 中不相似配体的复合物结构扩充训练数据集后,模型成功率显著提高。结合 MM - GB/SA 优化和重新评分方法,进一步提高了模型在 PoseBusters v1 数据集上的成功率和有效性。

研究结论和讨论部分再次强调了 BindingNet v2 数据集的重要性。该数据集为研究蛋白质 - 配体相互作用、分析大规模 SAR 以及开发预测蛋白质 - 配体相互作用的计算方法提供了丰富的资源。虽然目前该数据集的配体多样性仍有待提高,蛋白质类型也受到 PDB 中实验复合物结构的限制,但它为后续研究奠定了坚实的基础。未来研究可通过整合更多类型的数据,如大规模对接数据、蒸馏数据、手动建模结构和晶体结构等,构建更通用、更具多样性的蛋白质 - 配体相互作用模型,进一步提升 DL 模型的泛化能力。同时,研究人员还指出,结合非活性数据对于提高模型的虚拟筛选能力至关重要,这也是未来研究的一个重要方向。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号