
-
生物通官微
陪你抓住生命科技
跳动的脉搏
融合生成式AI与物理驱动主动学习框架的药物设计优化新策略
【字体: 大 中 小 】 时间:2025年08月09日 来源:Communications Chemistry 6.2
编辑推荐:
本研究针对生成模型(GMs)在药物设计中存在的靶点结合性不足、合成可行性差及泛化能力弱等问题,开发了集成变分自编码器(VAE)与双重主动学习(AL)循环的创新工作流。通过CDK2和KRASG12D靶点验证,成功生成兼具高亲和力、合成可及性和结构新颖性的分子,其中CDK2抑制剂活性达71 nM。该研究为探索靶向特异性化学空间提供了新范式。
在药物发现领域,传统机器学习方法受限于"先设计后预测"的范式,而生成模型(GMs)虽能逆向生成分子,却长期面临三大瓶颈:靶点结合预测不可靠、合成路线难以实现、以及训练数据外的泛化能力不足。这些问题严重制约了人工智能在创新药物设计中的应用价值。
针对这些挑战,来自西班牙巴塞罗那超级计算中心(Barcelona Supercomputing Center)的研究团队在《Communications Chemistry》发表了一项突破性研究。他们创新性地将变分自编码器(VAE)与双重主动学习(AL)框架相结合,开发出能同步优化分子亲和力、类药性和合成可行性的智能生成系统。该系统通过内层AL循环(基于定量药物相似性QED、合成可及性SA score和Tanimoto相似度)和外层AL循环(基于分子对接Glide gscore)的协同作用,实现了化学空间的定向探索与优化。
研究采用的关键技术包括:1) 基于LSTM的VAE架构进行分子生成;2) 双重AL框架实现迭代优化;3) Glide分子对接筛选;4) PELE(Protein Energy Landscape Exploration)结合自由能计算;5) 绝对结合自由能(ABFE)模拟验证。实验验证阶段使用Enamine Real Space 76B数据库进行新颖性评估,并通过LANCE Ultra Kinase Assay完成CDK2抑制活性检测。
研究结果
设计最优GM工作流
通过5个外层AL循环(含16个内层循环)的迭代优化,系统生成的CDK2抑制剂Glide gscore范围扩展至-8.0至-11.5 kcal·mol-1,其中28个分子gscore<-11.5 kcal·mol-1。UMAP可视化显示生成分子逐步远离训练集区域,探索全新化学空间。

CDK2验证
合成的9个分子中8个显示体外活性(IC50<50 μM),其中Outer5_105达到71 nM。ABFE模拟与实验pIC50相关系数达-0.75。关键的是,所有分子在Enamine数据库中均无重复记录,6个分子的最相似化合物相似度<0.5。
KRASG12D应用
面对仅有73个已知抑制剂的低数据挑战,系统仍生成23,488个gscore<-8.0 kcal·mol-1的分子,其中125个gscore<-10.0 kcal·mol-1。通过PELE和ABFE筛选出4个潜在活性分子(预测Kd<15 μM),其结合模式均保持与ASP12的关键盐桥相互作用。
结论与意义
该研究通过VAE-AL框架成功解决了生成式AI在药物设计中的核心痛点:1) 利用物理基础的MM预测提升低数据条件下的靶点结合可靠性;2) 通过SA score约束保障合成可行性;3) 主动探索机制突破训练数据限制。实验验证表明,该方法不仅能重现已知抑制剂(如CDK2),更能发现全新骨架(如KRASG12D的非共价抑制剂)。
这项工作的创新性体现在三个方面:首先,将传统AL从"选择已有分子"转变为"生成全新分子";其次,首次实现化学信息学过滤器(QED/SA)与物理模型(Glide/PELE)的协同优化;最后,通过ABFE与实验验证形成完整闭环。这些突破为针对"难成药"靶点(如KRAS)的创新药物发现提供了可推广的智能化解决方案。
生物通微信公众号
知名企业招聘