融合生成式AI与物理驱动主动学习框架的药物设计优化新策略

【字体: 时间:2025年08月09日 来源:Communications Chemistry 6.2

编辑推荐:

  本研究针对生成模型(GMs)在药物设计中存在的靶点结合性不足、合成可行性差及泛化能力弱等问题,开发了集成变分自编码器(VAE)与双重主动学习(AL)循环的创新工作流。通过CDK2和KRASG12D靶点验证,成功生成兼具高亲和力、合成可及性和结构新颖性的分子,其中CDK2抑制剂活性达71 nM。该研究为探索靶向特异性化学空间提供了新范式。

  

在药物发现领域,传统机器学习方法受限于"先设计后预测"的范式,而生成模型(GMs)虽能逆向生成分子,却长期面临三大瓶颈:靶点结合预测不可靠、合成路线难以实现、以及训练数据外的泛化能力不足。这些问题严重制约了人工智能在创新药物设计中的应用价值。

针对这些挑战,来自西班牙巴塞罗那超级计算中心(Barcelona Supercomputing Center)的研究团队在《Communications Chemistry》发表了一项突破性研究。他们创新性地将变分自编码器(VAE)与双重主动学习(AL)框架相结合,开发出能同步优化分子亲和力、类药性和合成可行性的智能生成系统。该系统通过内层AL循环(基于定量药物相似性QED、合成可及性SA score和Tanimoto相似度)和外层AL循环(基于分子对接Glide gscore)的协同作用,实现了化学空间的定向探索与优化。

研究采用的关键技术包括:1) 基于LSTM的VAE架构进行分子生成;2) 双重AL框架实现迭代优化;3) Glide分子对接筛选;4) PELE(Protein Energy Landscape Exploration)结合自由能计算;5) 绝对结合自由能(ABFE)模拟验证。实验验证阶段使用Enamine Real Space 76B数据库进行新颖性评估,并通过LANCE Ultra Kinase Assay完成CDK2抑制活性检测。

研究结果

设计最优GM工作流

通过5个外层AL循环(含16个内层循环)的迭代优化,系统生成的CDK2抑制剂Glide gscore范围扩展至-8.0至-11.5 kcal·mol-1,其中28个分子gscore<-11.5 kcal·mol-1。UMAP可视化显示生成分子逐步远离训练集区域,探索全新化学空间。

CDK2验证

合成的9个分子中8个显示体外活性(IC50<50 μM),其中Outer5_105达到71 nM。ABFE模拟与实验pIC50相关系数达-0.75。关键的是,所有分子在Enamine数据库中均无重复记录,6个分子的最相似化合物相似度<0.5。

KRASG12D应用

面对仅有73个已知抑制剂的低数据挑战,系统仍生成23,488个gscore<-8.0 kcal·mol-1的分子,其中125个gscore<-10.0 kcal·mol-1。通过PELE和ABFE筛选出4个潜在活性分子(预测Kd<15 μM),其结合模式均保持与ASP12的关键盐桥相互作用。

结论与意义

该研究通过VAE-AL框架成功解决了生成式AI在药物设计中的核心痛点:1) 利用物理基础的MM预测提升低数据条件下的靶点结合可靠性;2) 通过SA score约束保障合成可行性;3) 主动探索机制突破训练数据限制。实验验证表明,该方法不仅能重现已知抑制剂(如CDK2),更能发现全新骨架(如KRASG12D的非共价抑制剂)。

这项工作的创新性体现在三个方面:首先,将传统AL从"选择已有分子"转变为"生成全新分子";其次,首次实现化学信息学过滤器(QED/SA)与物理模型(Glide/PELE)的协同优化;最后,通过ABFE与实验验证形成完整闭环。这些突破为针对"难成药"靶点(如KRAS)的创新药物发现提供了可推广的智能化解决方案。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号