综述:P - 糖蛋白(P-gp)酶中药物抑制预测:机器学习与图神经网络的比较研究

【字体: 时间:2025年05月07日 来源:Computational Toxicology 3.1

编辑推荐:

  本文聚焦 P - 糖蛋白(P-gp)酶药物抑制预测,利用公开数据集,运用多种机器学习算法(如 SVM、RFC 等)和图神经网络构建分类模型。研究发现机器学习模型在准确率和效率上更优,SVM 表现最佳,为药物代谢预测提供了重要参考。

  

引言


21 世纪初,医疗保健领域面临诸多挑战,其中药物安全和疗效是新药上市的主要阻碍。药物代谢是一个复杂且高度调控的过程,分为三个阶段。P - 糖蛋白(P-gp)作为 ATP 结合盒(ABC)转运体超家族成员,在药物运输中发挥重要作用,其表达于肠道、肝脏、肾脏和血脑屏障等多种组织,作为外排泵将药物和其他化合物从细胞质转运回细胞外空间 。

研究药物与药物转运酶相互作用的方法主要有实验方法和计算方法。实验方法存在成本高、耗时长、资源密集等缺点。近年来,机器学习和深度学习模型在生物信息学领域崭露头角,被用于基于高通量体外筛选生成的大型复杂数据集预测药物代谢酶的毒性。已有研究开发了基于机器学习(ML)和深度神经网络(DNN)的模型来评估药物分子与 P-gp 转运体的相互作用。

本研究旨在开发一个高效的 P-gp 转运体毒性预测框架,主要贡献包括:使用多种分子描述符(如 Morgan、PaDEL 等)表征化合物化学特征;运用四种 ML 模型(RFC、SVM、AdaBoost、HistGB 分类器)和图卷积神经网络(GCN)对化合物进行毒性分类;比较基于描述符的模型和基于图的方法的性能;突出 SVM 模型在 P-gp 数据集分类中的优越性能,并证明组合不同描述符可实现高精度、可解释性和计算效率。

数据集特征


本研究使用的 P-gp 数据集来源多样,通过查阅文献研究、结合数据库(如 Binding 数据库、ChEMBL、药物银行数据库)等方式收集相关信息,多位研究人员参与了数据集的构建。

分子空间探索


作为初步步骤,利用 P-gp 酶的分子数据集评估化学多样性。通过使用 sklearn 库,基于分子量和辛醇 - 水分配系数的对数(SlogP)生成散点图,以可视化数据中的关系和模式,展示数据集在物理化学性质上的变异性,一般分子量较低的化合物倾向于位于中心。

结论


本研究主要致力于针对参与药物代谢和消除的代谢酶 P-gp 进行化合物的毒性和非毒性分类。研究利用如 RDKit、Mordred 和 ECFP 描述符等分子特征,以及图神经网络(GINCovNet)的基于图的特征开发机器学习模型。在数据预处理阶段,从化学空间中去除重复和高度相关的特征以获得最优数据。研究结果表明机器学习模型在独立数据集的准确率和效率方面优于深度学习模型,其中 SVM 在 P-gp 数据集上表现出卓越的预测能力,在独立数据集上准确率达到 0.95。此外,对最佳模型特征重要性的分析突出了特定描述符对数据集的重要贡献。在外部数据集上评估时,本研究模型优于先前研究,强调了分子特征在更精确解释化合物性质和生物活性方面的有效性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号