
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于潜在强化学习的靶向分子生成新策略:突破药物发现中的化学空间探索瓶颈
【字体: 大 中 小 】 时间:2025年05月01日 来源:Scientific Reports 3.8
编辑推荐:
研究人员针对药物发现中分子优化效率低、化学规则依赖性强的问题,开发了MOLRL框架,结合预训练生成模型与近端策略优化(PPO)算法,在潜在空间实现高效分子优化。该方法在pLogP提升(△pLogP最高达5.45±4.01)、多靶点活性分子设计(成功率84.7%)及支架约束优化(成功率100%)中表现优异,为AI驱动的药物发现提供了新范式。
在药物研发领域,如何高效设计兼具特定生物活性和理想理化性质的分子一直是核心挑战。传统药物化学家通过反复试验修改分子结构,不仅耗时耗力,还受限于人类对化学空间的有限认知。尽管深度学习生成模型为分子设计带来了新思路,但现有方法仍面临两大瓶颈:一是直接操作分子结构易违反化学规则,二是连续潜在空间的优化缺乏有效探索策略。
针对这些问题,Cellarity公司与卡耐基梅隆大学、NVIDIA的研究团队在《Scientific Reports》发表了创新性研究。他们开发了MOLRL(Molecule Optimization with Latent Reinforcement Learning)框架,将预训练生成模型的潜在空间表示与强化学习(RL)中的近端策略优化(PPO)算法相结合,实现了无需预设化学规则的智能化分子优化。该工作不仅突破了传统方法的局限性,还在多个药物发现关键任务中超越了现有技术。
研究采用了两大核心技术:一是基于变分自编码器(VAE)和互信息机(MolMIM)的分子生成模型,分别使用10M PubChem和1B ZINC数据库分子训练;二是PPO算法驱动的潜在空间导航策略,通过高斯噪声扰动(σ=0.1-1.0)和周期性重启机制平衡探索-开发权衡。实验验证了模型在ZINC数据集上的重建性能(MolMIM重建相似度0.87)和潜在空间连续性(Tanimoto相似度随噪声扰动平滑下降)。
结果与讨论
预训练模型评估与潜在空间连续性
通过分析VAE(采用循环退火策略)和MolMIM模型,发现后者在重建率(0.870 vs 0.763)和噪声鲁棒性(σ=0.5时仍保持结构相似性)上更具优势,证实了潜在空间作为优化环境的可行性。
单属性约束优化
在提升pLogP的基准测试中,MOLRL-MolMIM组合达到平均改进5.45±4.01(δ=0.4时成功率95.75%),且同步改善合成可及性(ΔSA↓19.12%),显著优于直接结构修改的MolDQN方法(ΔSA↑4.34%)。
多目标生物活性优化
针对GSK3β和JNK3双靶点活性优化任务,MOLRL生成分子的成功率(84.7%)与多样性(0.601)接近基于片段组装的FaST方法,但无需依赖已知活性骨架的先验知识。
支架引导多参数优化
以2-氨基嘧啶为约束骨架时,MOLRL实现100%成功率,且生成分子保持高药物相似性(QED>0.6)和结构新颖性(73.9%独特SMILES),证明其处理复杂药物设计需求的能力。
该研究的核心突破在于将分子优化转化为潜在空间的连续控制问题,通过PPO算法实现高效探索。相比传统方法,MOLRL避免了人工定义化学规则的繁琐,同时通过预训练模型的约束保障了分子合理性。值得注意的是,MolMIM空间的高连续性更利于属性优化,而VAE空间则支持更广的探索,这种差异为不同优化场景提供了灵活选择。
研究团队特别指出,尽管当前方法在计算效率上仍有提升空间(如2000轮训练才能达到99.4%成功率),但其"化学知识内化"的特性(通过预训练模型隐式学习化学规则)为突破已知化学空间提供了可能。未来结合更精准的可合成性预测模型,这类方法有望成为药物发现的核心引擎。正如作者Ragy Haddad强调的,这项技术"将复杂的化学修饰简化为潜在空间的向量运算",为AI驱动的新型药物设计树立了重要里程碑。
生物通微信公众号
知名企业招聘