利用基于树的机器学习技术,加速从药物再利用数据库中筛选USP8抑制剂的过程

《Advanced Intelligent Discovery》:Accelerating Primary Screening of USP8 Inhibitors from Drug Repurposing Databases with Tree-Based Machine Learning

【字体: 时间:2025年11月24日 来源:Advanced Intelligent Discovery

编辑推荐:

  泛素-蛋白酶体系统(UPS)由去泛素化酶如USP8调控,其功能失调与肝癌、乳腺癌等癌症进展相关。尽管已有小分子USP8抑制剂显示前临床活性,但尚未进入临床阶段。本文通过机器学习(ML)优化XGBoost模型,结合高-throughput筛选数据,从DrugBank和Broad Repurposing Hub数据库中虚拟筛选出100个高优先级抑制剂候选化合物,近半数已处于临床试验或获批其他适应症。同时发现9种新型分子骨架,为USP8靶向药物开发提供新方向。

  本文探讨了一种利用监督机器学习(Supervised Machine Learning, ML)技术,结合药物再利用(Drug Repurposing)策略,以高效筛选针对USP8的潜在抑制剂的新方法。USP8是泛素-蛋白酶体系统(Ubiquitin-Proteasome System, UPS)中的关键去泛素化酶(Deubiquitinase, DUB),其功能涉及调控蛋白质稳定性、细胞信号传导、受体运输和细胞周期控制等。USP8在多种癌症中表现出异常表达,包括肝内胆管癌(intrahepatic cholangiocarcinoma, iCCA)、乳腺癌和肝细胞癌(hepatocellular carcinoma, HCC)。由于USP8在癌症发生发展中的重要作用,它被视为一种有前景的治疗靶点。然而,尽管已有多种小分子抑制剂在临床前研究中显示出抑制肿瘤生长的潜力,但尚未有任何一种获得临床批准,这反映了传统药物开发过程中的挑战与高成本。

为了应对这一挑战,本文提出了一种基于现有药物分子的再利用策略,并利用机器学习模型对这些药物进行虚拟筛选,以识别可能具有USP8抑制活性的候选药物。这种方法不仅能够利用已有的药物研发数据,还显著减少了药物开发的时间和成本。此外,该方法还结合了高通量筛选(High-Throughput Screening, HTS)数据,通过训练多个ML模型,对不同的分子指纹(Molecular Fingerprints)进行比较,以找到最适合用于预测USP8抑制活性的模型。最终,XGBoost模型在使用RDKit指纹作为输入时表现最优,其正向命中率(Positive Hit-Rate)相比随机选择提高了约16.3倍,显示出卓越的预测能力。

### 一、研究背景与意义

泛素-蛋白酶体系统(UPS)是细胞维持蛋白质稳态的重要机制之一,它通过泛素化标记和降解受损或错误折叠的蛋白质,从而确保细胞内环境的稳定。然而,UPS的调控并非单向的,去泛素化酶(DUBs)在其中起到平衡作用,通过移除泛素链,防止蛋白质被降解。USP8作为DUB家族的重要成员,不仅在细胞内具有关键的调控功能,还与多种疾病的发生发展密切相关,尤其是癌症。

USP8的异常表达已被发现与多种癌症的进展相关。它通过稳定致癌蛋白(如TGF-β受体、OGT和β-catenin)来促进癌细胞的增殖、侵袭以及对细胞死亡的抵抗。因此,USP8成为一种极具潜力的药物靶点。然而,尽管已有多个小分子抑制剂在实验室中显示出良好的抗肿瘤效果,如MB7295、DC-U4106、9-ethyloxyimino-9H-indeno[1,2-b]pyrazine-2,3-dicarbonitrile和DUB-IN-3,但这些化合物并未进入临床阶段,这凸显了传统药物开发流程中的高成本和低效率问题。

### 二、研究方法与数据处理

为了提高USP8抑制剂的筛选效率,本文采用了机器学习技术,特别是在监督学习框架下,利用高通量筛选数据对药物分子进行分类预测。研究团队对六种不同的ML架构进行了训练和评估,包括随机森林(Random Forest)、XGBoost、LightGBM、CatBoost、基于消息传递的神经网络(Directed Message Passing Neural Networks, D-MPNNs)以及MoLFormer。这些模型的输入采用了三种类型的信息化学指纹:RDKit指纹、ECFP4指纹(Extended Connectivity Fingerprint with radius 2)和MACCS指纹(Molecular ACCess System keys)。

其中,RDKit指纹表现最为优异,不仅在模型训练中取得了更低的二元交叉熵(Binary Cross Entropy, BCE)损失,还展示了更高的模型泛化能力。研究团队进一步探讨了数据不平衡问题对模型性能的影响,并尝试通过不同比例的欠采样(Undersampling)策略来改善模型的预测效果。然而,实验结果表明,欠采样策略并未显著提升模型性能,反而可能造成结构多样性损失,从而影响模型的泛化能力。因此,研究团队决定保留完整的HTS数据集,以确保模型能够覆盖尽可能多的分子结构特征。

此外,研究团队还对预测结果进行了细致的验证,通过计算化合物之间的相似度(如Tanimoto相似度)和结构差异(如Bemis-Murcko scaffolds)来评估模型的预测准确性。对于预测为USP8抑制剂的化合物,研究团队进一步分析了它们在药物开发阶段的分布情况,包括临床前、临床一期、二期、三期以及已获批药物。这些化合物不仅在结构上具有多样性,而且其中部分已进入临床试验或获批用于其他疾病,显示出其在药物再利用中的巨大潜力。

### 三、模型性能与结果分析

在模型性能评估方面,研究团队采用了多种指标,包括BCE损失、ROC-AUC(Receiver Operating Characteristic Area Under Curve)和PR-AUC(Precision-Recall Area Under Curve)。结果显示,XGBoost模型在使用RDKit指纹作为输入时,取得了最佳的预测效果,其BCE损失显著低于其他模型,同时在ROC-AUC和PR-AUC指标上也表现出色。特别是,在0.1的分类阈值下,XGBoost模型的Matthews相关系数(Matthews Correlation Coefficient, MCC)达到了0.607,表明其在预测正负样本时具有较高的平衡性和鲁棒性。

在进一步测试中,XGBoost模型对多个外部验证集(包括三个独立研究中报道的USP8抑制剂)进行了预测,并取得了约70%的准确率。这表明该模型不仅能够有效识别已知的USP8抑制剂,还能够发现一些结构上与已知分子差异较大的新候选化合物。例如,预测出的9种新的Bemis-Murcko骨架(BM scaffolds)尚未被研究作为USP8的结合分子,这为未来开发新的USP8抑制剂提供了潜在的方向。

此外,研究团队还对预测结果的经济性进行了分析。与传统高通量筛选中常用的高成本化合物相比,通过XGBoost模型筛选出的候选化合物在价格上具有明显优势。例如,XGBoost预测的100种高优先级候选化合物的平均价格为每毫克2.86美元,而传统筛选中高活性化合物的平均价格高达每毫克487美元。这表明,通过机器学习进行药物再利用不仅可以加速发现过程,还能显著降低研发成本。

### 四、模型的可扩展性与应用前景

本文提出的基于XGBoost的机器学习模型,为USP8靶点的药物再利用提供了一种可扩展、高效的筛选流程。该模型能够在不依赖复杂化学合成的情况下,快速识别具有潜在抑制活性的已知药物分子,从而减少实验验证的次数和成本。此外,该模型还能够识别出新的分子骨架,为开发新型USP8抑制剂提供了理论依据和实践方向。

研究团队进一步指出,该模型的成功不仅依赖于数据的高质量,还在于其对药物筛选流程的优化。通过引入多种分子指纹,并结合不同的ML架构,模型能够更全面地捕捉分子结构特征。同时,通过调整分类阈值,研究团队能够在灵敏度和特异性之间找到最佳平衡点,以满足不同实验条件下的需求。此外,该模型在筛选过程中能够避免结构重复,通过Tanimoto相似度分析确保预测化合物的多样性。

### 五、研究的局限性与未来方向

尽管本文提出的模型在USP8抑制剂筛选中表现出色,但仍存在一定的局限性。首先,模型的预测结果仍然依赖于已有的高通量筛选数据,这意味着如果HTS数据中存在偏差或不完整,可能会影响模型的泛化能力。其次,虽然模型能够识别一些具有潜在抑制活性的化合物,但这些化合物的实际疗效仍需通过实验验证。因此,未来的研究应进一步结合实验数据,以优化模型的预测能力。

此外,研究团队还指出,模型的预测结果需要考虑药物的药代动力学(ADMET)特性。某些药物虽然在USP8抑制活性上表现出色,但其在体内的代谢和毒性可能限制其临床应用。因此,在筛选过程中,除了关注分子的结构和活性,还需要综合评估其安全性和药效。这一过程可以通过结合更多的药理学数据,进一步优化模型的预测结果。

### 六、结论与意义

综上所述,本文提出了一种基于监督机器学习和药物再利用的高效筛选方法,成功识别出100种具有USP8抑制活性的候选化合物。其中,近一半的化合物已进入临床试验或获批用于其他疾病,显示出其在药物再利用中的巨大潜力。同时,该模型还发现了9种新的分子骨架,为未来开发新型USP8抑制剂提供了新的方向。

这项研究不仅展示了机器学习在药物筛选中的强大能力,还为癌症治疗提供了新的思路。通过结合已有的药物分子和高通量筛选数据,研究团队构建了一个高效的虚拟筛选流程,使得USP8抑制剂的发现过程更加经济、快速和可扩展。这种方法不仅适用于USP8,还可能推广到其他DUB靶点的药物开发中,从而推动精准医学和个性化治疗的发展。

此外,本文还强调了药物再利用在现代药物研发中的重要性。相比从头设计药物(de novo drug development),再利用已有的药物分子可以显著减少研发时间和成本。例如,一些原本用于治疗心血管疾病的药物,如西地那非(Sildenafil),后来被用于治疗勃起功能障碍和肺动脉高压。这种策略在新冠疫情期间也得到了验证,如地塞米松(Dexamethasone)和巴瑞替尼(Baricitinib)等药物被快速用于治疗重症患者。

综上所述,本文的研究为USP8抑制剂的发现提供了一种全新的方法,同时也为药物再利用策略的推广提供了理论支持和实践指导。通过结合机器学习和药物再利用,研究团队成功构建了一个高效、低成本的药物筛选流程,为未来药物开发提供了重要的参考价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号