强化化学语言模型在药物发现中的应用

《Journal of Chemical Information and Modeling》:REINFORCE-ING Chemical Language Models for Drug Discovery

【字体: 时间:2025年11月17日 来源:Journal of Chemical Information and Modeling 5.3

编辑推荐:

  本文改进了基于REINFORCE的强化学习算法,通过引入新的奖励塑造方法、优化超参数配置和结合经验回放技术,显著提升了化学语言模型在药物发现中的有效性、效率和化学合理性。实验表明,改进后的ACEGEN算法在MolOpt基准测试中达到最优性能,同时在JNK3配体发现案例中展现出比基线模型更优的亲和力优化和选择性。研究提供了开源代码和详细的超参数优化策略,为化学语言模型的强化学习应用提供了重要参考。

  化学语言模型与强化学习的结合在药物发现领域展现出了巨大的潜力。通过智能地探索庞大的化学空间,这些模型能够生成具有潜在药用价值的新分子。然而,尽管这一方法已取得一定进展,不同强化学习算法的性能表现及其在实际药物发现中的最佳实践仍然不明确。本文从REINFORCE算法的基本原理出发,系统地研究了强化学习理论中的多个关键组件,包括经验回放、山地攀登、基线以降低梯度估计的方差,以及替代的奖励塑造方法。通过分析这些组件对学习过程的影响,我们提出了一种新的正则化方法,该方法更贴近REINFORCE的特性,并展示了如何通过调整强化学习超参数来提高学习效率和效果。最后,我们应用这些研究成果,通过使用Boltz2作为奖励模型,优化了前沿的结合亲和力模型,以识别可能的JNK3变构配体。我们还分享了在ACEGEN存储库中使用的强化学习模型,并希望这些实验能为研究人员在药物发现中应用强化学习提供指导。

化学语言模型(CLMs)是一种广泛使用的工具,能够进行从头分子生成。这些模型通过分子字符串表示,如SMILES或DeepSMILES,将分子逐个令牌地进行编码。SMILES分子语法因其可解释性而表现出色,即使在新型机器学习启发的语法出现后,依然保持了良好的性能。从强化学习的角度来看,这种逐个令牌生成分子的过程可以被视为一个部分可观测的马尔可夫决策过程(MDP)。在这个过程中,奖励函数对分子的属性进行数值化评分,以指导模型生成更符合预设目标的分子,如估计的效力、选择性、生物利用度或毒性。

在最近的研究中,我们发现基于REINFORCE的算法在应对药物发现中与分子生成相关的各种挑战时,仍然是黄金标准。此外,一些研究表明,当强化学习策略在大型化学语言模型上进行预训练时,REINFORCE可以优于其他通常被认为更先进的算法,如Advantage Actor Critic(A2C)和Proximal Policy Optimization(PPO)。我们还发现,通过奖励塑造或额外的损失项对策略进行正则化,比在奖励函数中显式添加约束更能有效维持有利的化学特性。同时,我们将REINVENT拆解为其独立的组成部分:REINFORCE算法、经验回放、奖励塑造和一个基于似然的正则化损失项。我们发现,虽然奖励塑造在正则化方面有效,但它缺乏可解释性,这使得对探索与利用之间的权衡难以进行精细控制。此外,我们还发现基于似然的正则化损失项对REINFORCE算法的性能没有明显提升。

在本文中,我们测试了受强化学习文献启发的不同正交组件对REINFORCE算法的影响。这些组件包括:使用基线以降低梯度估计的方差、通过选择每个数据批次中前k个元素来提高山地攀登的效果、不同的经验回放(ER)配置,以及一种新的、更具直观性的奖励塑造方法,该方法将奖励梯度与先验正则化解耦。最后,我们将这些研究成果应用于药物发现的挑战中,通过优化前沿的结合亲和力模型,使用Boltz2作为奖励模型,展示了在识别潜在的JNK3变构配体方面的学习效率提升。

在方法部分,我们采用了一种基于门控循环单元(GRUs)的递归神经网络作为策略模型,并在ChEMBL28数据集上进行了预训练。所有算法均在ACEGEN中实现或重新实现,以确保一致性。为了评估模型的性能,我们使用了MolOpt基准,该基准涵盖了23个不同的任务,每个任务对应不同的目标。我们关注了八个指标,这些指标在所有23个目标上进行了汇总,以衡量模型的综合表现。这些指标包括化学“朴素”代理的有效性、效率和探索,以及化学“感知”代理的等效指标。

在结果与讨论部分,我们首先探讨了优化与正则化之间的权衡。保持先验策略的学习有助于确保生成的化学空间与先验训练数据集相似,从而生成更符合需求的分子。然而,REINVENT的奖励塑造方法虽然在实践中有效,但其具体形式并不直观,使得对奖励景观的理解和对优化与正则化之间权衡的精细控制变得困难。为了更好地理解奖励景观,我们可视化了奖励景观,并发现了一些有趣的行为。例如,在某些情况下,对于较低的σ值,存在一个高奖励区域,但该区域对应的是极低的先验似然,这在实际中并不理想。此外,σ值不仅影响奖励景观的形状,还影响其规模和梯度,这使得一个超参数同时控制了两个效果。因此,我们提出了一种新的奖励塑造机制,以更有效地对REINFORCE算法进行正则化。

我们还测试了不同的经验回放配置,以利用离策略数据增强学习过程。这些配置包括从回放缓冲区中随机抽取分子,或根据其奖励比例进行抽取。我们还考虑了不同大小的回放缓冲区(100和500个分子)以及不同的批次大小(10和20)。结果显示,使用回放缓冲区中的离策略数据能够提高有效性和样本效率,而对生成的有效分子数量影响较小。优先抽样策略带来了更大的性能提升,但均匀抽样则对探索的影响较小。最终,我们发现,回放缓冲区大小为100,批次大小为20,并采用优先抽样的配置能够最大化性能和效率。

我们还测试了不同的奖励指数α,以观察其对优化过程的影响。结果表明,随着α值的增加,探索度逐渐下降,但有效性和效率显著提高。我们还探讨了不同的学习率对学习效率的影响。结果显示,较高的学习率虽然能够提高效率,但会显著降低探索度。此外,我们还测试了不同的正则化策略,如Kullback-Leibler(KL)散度损失项。KL散度损失项能够提高化学有效性,并增加探索度,但会略微降低有效性和效率。这表明,在某些情况下,KL散度可能比基于先验似然的奖励塑造更有利于正则化。

为了寻找最佳的超参数组合,我们基于最有可能提升性能的扩展进行了超参数搜索。我们测试了随机选取的1000种配置,这些配置是从理论上可能的7464960种组合中选取的。所选的两个任务“Osimertinib MPO”和“Median molecules 2”与整体基准性能高度相关。在超参数优化过程中,我们发现最佳的配置能够显著提高有效性和效率,但对探索度和化学有效性的影响较小。我们称这一配置为ACEGEN_MolOpt,并展示了其在MolOpt基准上的性能。

此外,我们还手动选择了一个配置,称为ACEGEN_practical,以在保持化学有效性的同时提高探索度。该配置的超参数在文献中进行了详细说明。这一配置在所有指标上取得了平衡,并且在化学有效性方面显著优于其对应的基线模型AHC。为了进一步评估ACEGEN在药物发现中的能力,我们测试了其在优化JNK3结合亲和力模型中的表现,并将其与SynFlowNet进行了比较。SynFlowNet是一种受约束的生成模型,限制在可合成的化学空间内,这虽然增加了其在工业药物发现中的实用性,但也限制了其探索的化学空间范围。结果显示,ACEGEN在预算内能够有效优化Boltz2结合亲和力,而SynFlowNet则未能达到这一效果。这可能是因为SynFlowNet的训练预算较高,达到了400,000个分子,而ACEGEN的预算仅为10,000个分子。此外,我们还发现,ACEGEN生成的分子更有可能具有合成路线,这表明其在合成可及性方面表现更佳。

在寻找激酶抑制剂药物候选分子的过程中,选择性是一个重要的挑战,因为许多蛋白激酶具有高度保守的ATP结合位点。因此,我们进行了一项额外的实验,以优化Boltz2结合亲和力的同时,将ATP折叠到正向结合位点中,鼓励模型生成可能结合到其他潜在变构位点的分子。结果显示,优化变构结合亲和力的学习过程较为缓慢,但仍然可行,同时保持了较高的结合信心和优良的QED和SAScore属性值范围。此外,我们还评估了这些生成分子与已知JNK3配体的相似性,并发现它们与已知的JNK3配体没有显著相似之处,这表明模型正在探索新的化学空间。

为了进一步评估变构结合亲和力,我们选择了一组代表性分子,并使用绝对结合自由能(ABFE)方法评估其准确性。ABFE提供了一种严格且可转移的结合强度测量方法,通过估计配体在结合和未结合状态下的自由能差来评估结合能力。结果显示,Boltz2估计的亲和力与ABFE估计的亲和力之间存在显著的相关性,这表明Boltz2在识别新的蛋白结合位点和优化结合亲和力方面具有良好的潜力。

最后,我们总结了本文的主要发现。通过结合强化学习理论中的多个扩展,我们展示了如何改进基于REINFORCE的算法,以提高其在药物发现中的性能。我们提出了一种新的奖励塑造机制,能够更有效地控制优化效率与先验策略正则化之间的权衡。此外,我们还发现,经验回放和奖励指数等扩展能够显著提高有效性和效率,同时对探索度和化学有效性的影响较小。在实际案例研究中,我们发现ACEGEN在识别潜在的JNK3变构配体方面表现出色,并且在样本效率方面优于基线模型SynFlowNet。我们还展示了ACEGEN在保持药物样性质方面的良好表现,并希望这些结果能够为研究人员在药物发现中应用强化学习提供指导。所有强化学习扩展、超参数优化脚本以及其他提到的化学语言模型都已分享在ACEGEN存储库中,供研究人员参考和使用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号