综述:从障碍到设计优势:基于“活动悬崖”原理的小分子药物发现建模方法
《Drug Discovery Today》:From obstacle to design advantage: Activity cliff aware modeling for small-molecule drug discovery
【字体:
大
中
小
】
时间:2025年12月20日
来源:Drug Discovery Today 7.5
编辑推荐:
本文提出三层次闭环框架,将结构-活性关系中的活动悬崖(ACs)作为设计关键信号。通过分子表示优化(AC-aware pretraining)、评估指标改进(SALI、RMSE_cliff)和生成策略调整(ACARL、REINVENT),系统性地提升模型在陡峭SAR区域的表现,形成自优化药物设计流程。
本文聚焦药物发现中的核心挑战——结构-活性关系(SAR)中的活动悬崖(Activity Cliffs, ACs),提出了一套系统性解决方案。活动悬崖指化学结构高度相似的化合物之间存在显著活性差异的现象,这类结构突变可能决定药物研发成败,但现有AI模型常因过度平滑而忽视其影响。研究团队通过分层设计构建闭环系统,在分子表征、预测评估和生成优化三个层面建立AC应对机制,为AI辅助药物设计提供了可操作的实践框架。
### 一、活动悬崖的本质与挑战
活动悬崖是SAR中陡峭的"断崖",表现为微小结构变化引发活性数量级变化。例如某些化合物通过单原子取代实现活性提升百倍,这类突变在分子空间中形成关键节点。传统AI模型基于平均化训练,容易在AC区域产生预测偏差:深度学习模型虽能捕捉复杂关系,但常将AC视为异常数据,导致预测失效。实验数据显示,现有模型在AC区域的RMSE(均方根误差)比平滑区域高30%-50%,且分类AUC值下降40%以上。
### 二、分层应对策略
#### 1. 分子表征优化(嵌入层)
- **空间特征增强**:在ECFP4指纹基础上引入原子对(APs)和拓扑扭转(TT)等局部结构描述,通过MMP(匹配分子对)筛选机制识别单编辑突变,提升对AC的敏感性。
- **3D信息融合**:SCAGE模型整合3D构象信息,当AC由空间互补性驱动(如氢键断裂、立体遮挡)时,3D表示能准确捕捉结构变化。实验表明,3D模型在形状主导型AC识别率提升27%。
- **注意力机制创新**:MaskMol通过掩码预训练,重点强化AC区域的结构特征,在微编辑(如苯环取代)检测中准确率提高34%。
#### 2. 预测评估体系(校准层)
- **动态评估框架**:MoleculeACE平台整合多维度评估,包括:
- **SALI景观分析**:量化结构相似性与活性差异的关联强度,识别AC热点区域
- **分层不确定性校准**:采用共轭预测(CP)对AC和非AC分子进行差异化置信区间计算,AC区域预测区间宽度扩大2-3倍
- **早期识别指标**:通过精度-召回曲线(AUCPR)和富集因子(EF)追踪模型在AC区域的性能
- **解释性验证**:建立原子级归因系统,对AC对中的差异原子进行贡献度评分。例如某抗炎化合物AC对中,苯环对位取代的甲基被识别为关键活性驱动基团。
#### 3. 生成优化机制(设计层)
- **AC导向生成**:ACARL框架将AC强度作为强化学习奖励函数,在生成过程中优先探索高SALI区域。实验显示,该策略在三个靶点上的Top1 docking能量提升达3.5 kcal/mol。
- **结构约束生成**:mmpdb结合MMP数据库,仅允许单步结构变化(如羟基-甲磺酸转换),确保生成分子的可解释性。通过RDKit合成可用性评分(SA_score)过滤不可及结构。
- **动态奖励机制**:REINVENT系统实时计算分子对的AC潜力(ACI),动态调整生成权重。当新AC被识别时,系统自动更新奖励函数,引导生成向高价值区域偏移。
### 三、技术实现关键
1. **数据预处理规范**:
- 建立统一活性数据集:严格筛选IC50/Ki值,排除跨实验条件干扰
- 消除结构歧义:通过InChIKey标准化处理,消除立体异构体等伪重复数据
- 3D数据补全:对ChEMBL等数据库进行构象生成和活性匹配
2. **分层技术协同**:
- 嵌入层与生成层形成闭环:SCAGE的3D特征输入生成模型,使输出分子更易形成有效AC
- 预测与生成双向校准:生成出的分子通过MoleculeACE重新评估SALI值,触发嵌入层参数微调
3. **评估基准革新**:
- 开发ACNet数据集:包含40万对MMPs(匹配分子对),覆盖190个靶点
- 引入交叉验证机制:针对不同靶点设计三重任务(小/中/大数据集),确保模型泛化性
### 四、应用案例与效果
在TYK2激酶抑制剂开发中,传统模型仅识别5%的潜在AC,而AC-aware框架通过以下改进提升效果:
- **结构导向采样**:优先对存在已知AC基团(如卤素取代位点)的分子进行扩展
- **不确定性引导**:当模型对某分子对的Δp置信度低于阈值时,触发实验验证流程
- **3D-2D联合优化**:先通过SCAGE筛选空间驱动型AC,再用MaskMol进行2D微调,最终生成物活性提升达8倍
实验对比显示:
| 方法类型 | AC区域RMSE | 全局RMSE | AUCPR |
|----------------|------------|----------|-------|
| 传统GNN | 1.82 | 0.89 | 0.71 |
| AC-aware GNN | 1.15 | 0.87 | 0.85 |
| 3D-ACARL | 0.76 | 0.92 | 0.89 |
### 五、实践指导原则
1. **分层实施策略**:
- 初期项目:采用SiamACLoss进行MMP筛选,配合传统ML模型(如随机森林)实现快速验证
- 复杂项目:部署SCAGE+ACARL组合,配合自动化合成路线规划
2. **动态评估流程**:
```python
# 伪代码示例:AC分层评估系统
def evaluate_model(molecules):
# 嵌入层处理
embeddings = SCAGE(molecules, target='TYK2')
# 预测层评估
rmse_cliff = compute_ac_rmse(embeddings, ac_pairs)
sali_scores = generate_saliency_map(embeddings)
# 生成层验证
generated = ACARL(prot Edgar, sali_scores)
return {
'RMSE_cliff': rmse_cliff,
'SALI_max': max(saliency_scores),
'novelty_rate': count_new_molecules()
}
```
3. **技术选型指南**:
- 小分子库(<5000化合物):推荐ECFP4+MMP筛选+ACNet分类
- 大分子库(>5000化合物):采用3D嵌入(SCAGE)+动态奖励生成(ACARL)
- 跨平台验证:确保在RDKit、OpenMolDB、Wistringstream等不同平台保持一致评估结果
### 六、未来发展方向
1. **多模态融合**:整合蛋白质结构域(如PDB数据库)和配体活性数据,构建三维-二维联合嵌入模型
2. **合成路径引导**:开发AC-导向的逆合成分析模块,自动生成最短合成路线
3. **动态阈值调整**:基于实时实验数据更新AC判定标准,适应不同研发阶段需求
本研究通过建立完整的AC应对技术栈,将药物发现周期中的决策点从平均化预测转向结构敏感设计,使研究者能精准定位AC区域,将传统需要数月验证的潜在活性化合物筛选效率提升3-5倍。该方法已在多个跨国药企的ADME筛选中验证,成功将候选分子进入临床阶段的平均时间缩短18个月。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号