深度探索距离 - 能量与接触数 - 能量关系,精准预测蛋白质 - 配体结合亲和力

【字体: 时间:2025年02月28日 来源:Biophysical Journal 3.4

编辑推荐:

  为准确预测蛋白质 - 配体结合亲和力,研究人员探索相关关系构建模型,新模型性能更优,意义重大。

  在药物研发的宏大领域中,准确评估蛋白质与配体之间的相互作用强度,就如同找到打开药物效果大门的精准钥匙,是至关重要的环节。传统的实验方法,如通过实验测定结合亲和力,不仅耗时费力,成本还极高,这无疑给药物研发的进程带来了巨大的阻碍。因此,开发一种高效、准确的计算机辅助预测方法,成为了众多科研人员梦寐以求的目标。
在这样的背景下,香港中文大学(深圳)和深圳湾实验室的研究人员勇挑重担,开展了一项极具意义的研究。他们聚焦于定量距离 - 能量(E \propto -d^{-k})和接触数 - 能量(E \propto -n^{k})关系,深入探索其在预测蛋白质 - 配体复合物结合亲和力方面的应用。研究成果发表在《Biophysical Journal》上。

研究人员在本次研究中,主要运用了以下关键技术方法:
首先,从 PDBbind 和 CASF - 2016 数据库获取蛋白质 - 配体复合物的结构和实验结合亲和力信息,经过严格筛选得到高质量数据集。然后,利用 Open Babel 2.4.1 软件对原子类型进行分配。最后,基于距离和接触数变量,运用最小二乘法生成预线性模型和线性模型,用于预测结合亲和力,并通过 Pearson’s 相关系数(R)和 Spearman’s 秩相关系数(\rho)评估模型性能。

下面来看看具体的研究结果:

  1. 不同原子类型对变量在亲和力预测中的性能:未经训练的基础距离和接触数变量预测亲和力时,部分单原子类型对变量(如配体 C.3 - 受体 O.2 等)表现较好。两类变量预测能力随幂指数k增加而下降,k = 1时最佳,且此时距离和接触数变量性能相当。不过,当k较小时,接触数变量性能下降更快;k \geq 4时,接触数变量排名能力不变,距离变量平均\rho仍下降。同时,这两类变量最佳性能与传统非机器学习打分函数相当,在无训练模型时,可快速比较蛋白质 - 配体复合物相对结合亲和力123
  2. 代表性预线性模型在亲和力预测中的性能:基于距离和接触数变量生成大量预线性模型,筛选出的代表性模型中,最佳性能为R在不同数据集有不同表现,如 SET - 1 中约为 0.60,SET - 2 中约为 0.66,SET - 3(CASF - 2016)中约为 0.73 ,CASF - 2016 中平均\rho约为 0.57。使用线性回归技术虽提高了打分能力,但排名能力略有下降。整体上,预线性模型预测能力随k增加而降低,k较小时,接触数预线性模型性能下降比距离预线性模型更快,k从 1 到 5 时,距离变量更适合评估相互作用强度456
  3. 代表性线性模型在亲和力预测中的性能:用选定的预线性模型训练大量线性模型,筛选出的代表性线性模型中,DS3 和 NS2 表现较好。从单变量到预线性模型再到线性模型,最佳性能在不同数据集中呈现一定变化趋势。尽管线性模型性能未如预期大幅提升,但 DS3 和 NS2 的性能仍优于其他非机器学习打分函数,其排名能力与最好的相当789
  4. 与其他非机器学习打分函数的比较:将基于距离和接触数的线性模型与 X - Score、APBScore、AA - Score 和 PRODIGY - LIG 等非机器学习方法对比,线性模型 DS3 和 NS2 的打分能力更优,排名能力与最好的相当109

研究结论和讨论部分指出,本研究进一步探索和扩展了定量距离 - 能量和接触数 - 能量关系,新的线性模型优于传统基于物理或经验的打分函数。研究还探讨了影响计算方法预测蛋白质 - 配体结合亲和力的多种因素,包括定量X - 亲和力 / 能量关系、蛋白质 - 配体结合亲和力与结合过程的关系以及数据集质量和完整性等。未来,随着蛋白质 - 配体复合物结构和结合亲和力数据质量的提高,以及对线性模型数学表达式的深入探索,有望进一步提升亲和力预测的性能,为药物研发提供更有力的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号