融合生成式AI与物理驱动主动学习框架的药物设计优化新策略

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月09日 来源：Communications Chemistry 6.2

编辑推荐：

　　本研究针对生成模型(GMs)在药物设计中存在的靶点结合性不足、合成可行性差及泛化能力弱等问题，开发了集成变分自编码器(VAE)与双重主动学习(AL)循环的创新工作流。通过CDK2和KRASG12D靶点验证，成功生成兼具高亲和力、合成可及性和结构新颖性的分子，其中CDK2抑制剂活性达71 nM。该研究为探索靶向特异性化学空间提供了新范式。

在药物发现领域，传统机器学习方法受限于"先设计后预测"的范式，而生成模型(GMs)虽能逆向生成分子，却长期面临三大瓶颈：靶点结合预测不可靠、合成路线难以实现、以及训练数据外的泛化能力不足。这些问题严重制约了人工智能在创新药物设计中的应用价值。

针对这些挑战，来自西班牙巴塞罗那超级计算中心(Barcelona Supercomputing Center)的研究团队在《Communications Chemistry》发表了一项突破性研究。他们创新性地将变分自编码器(VAE)与双重主动学习(AL)框架相结合，开发出能同步优化分子亲和力、类药性和合成可行性的智能生成系统。该系统通过内层AL循环（基于定量药物相似性QED、合成可及性SA score和Tanimoto相似度）和外层AL循环（基于分子对接Glide gscore）的协同作用，实现了化学空间的定向探索与优化。

研究采用的关键技术包括：1) 基于LSTM的VAE架构进行分子生成；2) 双重AL框架实现迭代优化；3) Glide分子对接筛选；4) PELE(Protein Energy Landscape Exploration)结合自由能计算；5) 绝对结合自由能(ABFE)模拟验证。实验验证阶段使用Enamine Real Space 76B数据库进行新颖性评估，并通过LANCE Ultra Kinase Assay完成CDK2抑制活性检测。

研究结果

设计最优GM工作流

通过5个外层AL循环（含16个内层循环）的迭代优化，系统生成的CDK2抑制剂Glide gscore范围扩展至-8.0至-11.5 kcal·mol^-1，其中28个分子gscore<-11.5 kcal·mol^-1。UMAP可视化显示生成分子逐步远离训练集区域，探索全新化学空间。

CDK2验证

合成的9个分子中8个显示体外活性（IC₅₀<50 μM），其中Outer5_105达到71 nM。ABFE模拟与实验pIC₅₀相关系数达-0.75。关键的是，所有分子在Enamine数据库中均无重复记录，6个分子的最相似化合物相似度<0.5。

KRAS^G12D应用

面对仅有73个已知抑制剂的低数据挑战，系统仍生成23,488个gscore<-8.0 kcal·mol^-1的分子，其中125个gscore<-10.0 kcal·mol^-1。通过PELE和ABFE筛选出4个潜在活性分子（预测K_d<15 μM），其结合模式均保持与ASP12的关键盐桥相互作用。

结论与意义

该研究通过VAE-AL框架成功解决了生成式AI在药物设计中的核心痛点：1) 利用物理基础的MM预测提升低数据条件下的靶点结合可靠性；2) 通过SA score约束保障合成可行性；3) 主动探索机制突破训练数据限制。实验验证表明，该方法不仅能重现已知抑制剂（如CDK2），更能发现全新骨架（如KRAS^G12D的非共价抑制剂）。

这项工作的创新性体现在三个方面：首先，将传统AL从"选择已有分子"转变为"生成全新分子"；其次，首次实现化学信息学过滤器（QED/SA）与物理模型（Glide/PELE）的协同优化；最后，通过ABFE与实验验证形成完整闭环。这些突破为针对"难成药"靶点（如KRAS）的创新药物发现提供了可推广的智能化解决方案。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号