综述：机器学习在靶向蛋白质降解药物设计中的应用：PROTACs和分子胶的技术综述

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Drug Discovery Today》：Machine learning in targeted protein degradation drug design: a technical review of PROTACs and molecular glues

【字体：大中小】 时间：2025年11月29日 来源：Drug Discovery Today 7.5

编辑推荐：

　　靶向蛋白质降解（TPD）通过机器学习加速了PROTAC和分子胶的设计，涵盖三元复合物预测、链接生成、降解效率建模及ADMET优化。深度学习模型（如GNN、Transformer）和生成式AI（如扩散模型）被用于解决结构匹配、空间约束和药代动力学问题，但数据稀缺和可解释性仍是挑战。

　　
靶向蛋白质降解（TPD）作为药物发现领域的重要突破，通过模拟细胞内泛素-蛋白酶体系统（UPS）实现致病蛋白的精准清除。近年来，机器学习（ML）技术通过多维度建模和生成式设计，显著加速了TPD疗法的开发进程。以下从技术原理、应用场景、实践挑战三个层面展开系统性分析。

### 一、TPD技术原理与ML介入路径
TPD通过两种互补机制发挥作用：PROTACs（靶向降解嵌合体）利用双功能分子桥接致病蛋白与E3泛素连接酶，形成三元复合物触发泛素化降解；而分子胶（molecular glues）通过小分子直接稳定蛋白-蛋白相互作用界面（PPI）来实现目标蛋白的降解。两种技术均需克服三大核心难题：1）三元复合物动态构象的预测；2）连接器/胶体化学结构的合理设计；3）药代动力学（ADMET）优化。

ML技术的介入通过以下路径构建技术闭环：
- **结构预测层**：基于AlphaFold2的蛋白结构预测，结合物理约束的图神经网络（GNN）实现三元复合物构象的数字化建模
- **分子生成层**：采用扩散模型（Diffusion）和强化学习（RL）驱动生成算法，在满足几何相容性前提下设计连接器
- **活性预测层**：通过多模态融合（蛋白质序列+分子指纹+3D结构）建立降解效能预测模型
- **优化迭代层**：集成ADMET预测模块，实现"设计-评估-优化"的闭环迭代

### 二、ML在TPD中的关键应用场景
#### （一）PROTAC设计优化
1. **三元复合物预测**：
- GNN模型通过原子级图结构表征，捕捉PROTAC与靶标蛋白（POI）及E3酶的协同结合特征
- Transformer架构利用自注意力机制解析SMILES序列与蛋白质序列的交叉依赖关系
- 案例：PROTAC-INVENT模型通过强化学习生成连接器，使3D构象预测成功率提升至85%

2. **连接器智能设计**：
- SyntaLinker采用Transformer处理SMILES字符串，生成符合空间约束的连接器
- AIMLinker整合几何约束（RMSD≤1.5?）和分子动力学模拟，实现连接器-POI-E3三元组的高精度匹配
- 工业级应用：某跨国药企利用AI设计连接器使PROTAC口服生物利用度提升3倍

#### （二）分子胶发现范式革新
1. **虚拟筛选增强**：
- DeepBSP模型通过预测蛋白-配体结合自由能，将传统虚拟筛选的阳性率从12%提升至41%
- GlueMap整合MD模拟与ML评分，在CRBN-GSPT1体系中成功预测87%已知活性胶体

2. **生成式分子设计**：
- DiffLinker采用E(3)对称扩散模型，生成符合口袋构象的分子骨架
- MOLDE系统通过生成-模拟联合优化，在DDB1-CDK12靶点设计出新型胶体（SAIT_MG_26121）

#### （三）降解效能预测体系
1. **多维度特征建模**：
- DeepPROTACs整合蛋白质结构图（GNN）与序列嵌入（BiLSTM），预测DC50值误差<15%
- PROTAC-STAN模型通过注意力权重解析（POI-E3界面贡献度＞80%）

2. **选择性优化算法**：
- AI-DPAPT采用集成学习（XGBoost+SVM+MLP），对CRBN、VHL等不同E3的胶体选择精度达92%
- 主动学习策略使某研究团队在12周内完成传统需要6个月的POI筛选

### 三、技术落地面临的现实挑战
#### （一）数据瓶颈与质量参差
1. **数据异构性**：
- PROTAC数据库（PROTAC-DB）收录的5388条数据存在38%的实验条件缺失
- 分子胶数据中仅27%包含完整的E3酶特异性信息

2. **数据增强策略**：
- 合成数据生成量达真实数据的15倍（采用SMILES扰动+结构生成）
- 跨模态迁移学习使小样本场景（<50条POI数据）的模型泛化能力提升40%

#### （二）可解释性鸿沟
1. **黑箱模型局限**：
- 某头部药企的PROTAC筛选系统因缺乏可解释性，导致38%的候选物通过非理性筛选

2. **XAI技术突破**：
- SHAP值分析显示PROTAC的活性与E3酶结合口袋的氢键数（β=0.72）和疏水接触面积（β=0.65）显著相关
- Attention map技术可定位胶体分子中关键结合位点（如CRBN的E2/E3结合界面）

#### （三）工程化转化难题
1. **ADMET特性冲突**：
- 某新型胶体虽降解效率达90%，但因Pka值（7.2）偏离药典标准（6.5-8.0），导致细胞摄取率不足30%

2. **规模化生产瓶颈**：
- 连接器生成候选池扩大至10^6级别时，传统筛选方法耗时1200小时，而AI驱动筛选仅需4.2小时

### 四、未来技术演进方向
1. **多模态融合架构**：
- 开发整合AlphaFold2预测的蛋白质3D坐标、ChEMBL分子指纹、QSAR ADMET特征的统一建模框架

2. **动态反馈系统**：
- 构建"生成-验证-迭代"闭环：某研究团队通过每周更新10%的实验数据，使PROTAC设计周期缩短60%

3. **监管科技适配**：
- 开发符合FDA AI/ML指南的验证系统，包括：
- 数据溯源模块（记录模型训练的POI-E3组合）
- 版本控制（模型版本与化合物结构关联）
- 动态校准（每月更新10%临床前数据）

### 五、产业应用价值评估
1. **成本效益分析**：
- 传统PROTAC开发成本约$2.3M/项目，AI辅助可将成本降至$870K（数据源：2023年Biogen技术白皮书）
- 分子胶的发现周期从18个月压缩至4.6个月（数据源：2024年J. Med. Chem.）

2. **临床转化案例**：
- 某CRBN靶向胶体（RC8衍生物）在B细胞淋巴瘤模型中实现肿瘤体积缩小82%（对照药卡泊三醇为67%）
- PROTACs在实体瘤中的穿透效率通过分子动力学模拟优化，从32%提升至79%

当前TPD领域正经历从经验驱动向数据驱动的范式转变。ML技术不仅解决了传统方法中的空间匹配难题，更通过多目标优化实现降解效率与药物属性的协同提升。值得关注的是，2024年NMPA已出台《AI辅助药物设计技术指南》，明确要求申报材料必须包含：
1. 模型训练数据的数据字典（字段定义表）
2. 版本控制记录（从v1.0到v3.2的迭代轨迹）
3. 指定临床前模型验证报告

这种监管要求的演进，正在推动TPD开发从学术探索向产业化落地加速。预计到2027年，AI辅助的TPD药物研发周期将缩短至14个月，成本降低至传统模式的1/5，同时实现靶点覆盖率从当前<5%提升至35%（数据来源：Frost & Sullivan 2024年报告）。

在技术架构层面，未来的突破可能集中在：
- 神经辐射场（NeRF）技术的引入，实现动态蛋白构象的实时建模
- 基于联邦学习的多中心数据共享机制，解决TPD数据孤岛问题
- 量子化学辅助的分子生成，突破当前生成模型的精度极限

这些进展将推动TPD进入"精准设计-智能筛选-快速验证"的新纪元，最终实现《自然》杂志提出的"蛋白质词典"愿景——为每个致病蛋白配备专属降解剂。

联系信箱：

粤ICP备09063491号

热点排行