
-
生物通官微
陪你抓住生命科技
跳动的脉搏
使用无监督机器学习对PROTAC数据库的结构多样性和化学空间进行分析
《Scientific Reports》:Structural diversity and chemical space analysis of a PROTAC database using unsupervised machine learning
【字体: 大 中 小 】 时间:2026年06月11日 来源:Scientific Reports 3.9
编辑推荐:
摘要由蛋白酶靶向嵌合体(PROTACs)介导的靶向蛋白降解(TPD)已成为一种强大的治疗策略,它能够通过泛素-蛋白酶体系统催化并选择性地消除与疾病相关的蛋白质。尽管PROTACs能够克服药物耐药性并针对传统上难以用药物作用的目标,但其复杂的结构和广泛的化学多样性给系统的分析和合理
由蛋白酶靶向嵌合体(PROTACs)介导的靶向蛋白降解(TPD)已成为一种强大的治疗策略,它能够通过泛素-蛋白酶体系统催化并选择性地消除与疾病相关的蛋白质。尽管PROTACs能够克服药物耐药性并针对传统上难以用药物作用的目标,但其复杂的结构和广泛的化学多样性给系统的分析和合理设计带来了挑战。在这里,我们提出了一个系统的无监督机器学习框架,这是首次对PROTAC化学空间进行的大规模相似性驱动聚类和以支架为中心的分析,旨在全面表征PROTAC分子的结构、功能和物理化学特性,并支持数据驱动的先导化合物优化和下一代降解剂的设计。最初的数据集包含9,380种化合物,这些化合物来自公开可用的PROTAC数据库(PROTAC-DB 3.0),经过严格的标准化和筛选后,得到了6,113种独特的、化学上有效的化合物。我们使用多步骤计算流程探索了这一化学空间,包括降维和对多种聚类算法的比较评估。在评估的方法中,一种改进的聚类策略在将数据集划分为结构上连贯的组方面表现出了卓越的性能。结构分析显示,PROTACs围绕一些典型的架构聚集,这些架构具有保守的E3连接酶结合基序、多样的目标结合框架以及异质性的连接子设计。官能团分析和物理化学分析进一步表明,这些化合物主要占据了一个超越传统药物范围的特殊化学空间,其特征是分子量高和显著的构象灵活性。总体而言,这些发现为PROTAC的优化提供了数据驱动的设计指导,突出了常见的支架架构和优选的性质范围,从而为下一代降解剂的发展提供了依据。