SHARP:通过基于片段的层次化动作空间强化学习生成可合成的分子,以实现帕累托优化

《Journal of Chemical Information and Modeling》:SHARP: Generating Synthesizable Molecules via Fragment-Based Hierarchical Action-Space Reinforcement Learning for Pareto Optimization

【字体: 时间:2025年10月27日 来源:Journal of Chemical Information and Modeling 5.3

编辑推荐:

  高效分子设计:SHARP模型的多目标优化与合成可行性平衡

  在人工智能驱动的药物发现领域,设计具有高结合亲和力、可合成性和药物样性质的分子是一项复杂的多目标全局优化任务。由于化学空间极其庞大,估计超过10^60种分子,这一任务需要在众多候选分子中找到那些能够同时满足多个关键性能指标的最优解。传统的深度学习分子生成模型往往将该任务视为分布建模,通常依赖于原子级别的自回归操作,较少考虑显式的优化反馈机制。因此,这些模型常常生成无效的分子结构、陷入局部最优解,或产生合成不可行的候选分子。为了解决这些问题,我们提出了“可合成的分层动作空间强化学习用于帕累托优化”(Synthesizable Hierarchical Action-space Reinforcement learning for Pareto optimization,简称SHARP),这是一种能够有效应对上述挑战的分子生成模型。

SHARP的核心设计在于采用了一种基于片段的分层动作空间,以及强化学习(Reinforcement Learning, RL)方法。这种分层动作空间不仅能够实现对化学空间的广泛探索,还能进行局部结构的精细优化。具体而言,第一层动作用于选择分子生成过程中的操作类型,如片段添加、删除和替换;第二层动作则用于选择具体的片段进行操作。通过这种分层机制,SHARP能够在分子生成过程中实现从全局探索到局部优化的自然过渡,从而生成结构合理且具有合成可行性的分子。

为了确保生成分子的可合成性,SHARP引入了预训练的“可合成性评估模型”(Synthesizability Estimation Model, SEM)。SEM能够对生成的分子进行评估,生成相应的动作掩码(action masks),从而限制生成过程,避免产生合成不可行的分子。此外,SHARP的强化学习策略采用了一个综合的奖励函数,将配体对接得分、药效团匹配和溶剂可及表面积(Solvent Accessible Surface Area, SASA)等指标结合起来,以实现对结合亲和力、药效团匹配和分子结构合理性的多重优化。这种方法使得SHARP能够生成在结合亲和力和合成可行性之间取得良好平衡的分子,从而在实际药物发现中具有更高的应用价值。

在四个不同的药物发现任务中,即片段生长、连接子设计、骨架跳跃和侧链修饰,SHARP表现出了显著的优势。这些任务涵盖了药物设计中的多个关键步骤,从初始片段的扩展到复杂分子结构的优化。在这些任务中,SHARP不仅能够生成具有高结合亲和力的分子,还能够在结构合理性和合成可行性方面表现出色。通过这些任务的评估,我们发现SHARP在生成具有高结合亲和力且可合成的分子方面,其性能显著优于现有方法。

为了验证SHARP在实际药物发现中的应用效果,我们进行了多个实验和分析。例如,在评估生成分子的化学合理性时,我们发现SHARP生成的分子在环结构(如三元环、四元环、七元环和大环)的出现频率显著低于其他方法,这表明其生成的分子在稳定性、合成可行性和结构合理性方面表现优异。此外,通过与ChEMBL34数据库的比较,我们发现SHARP生成的分子在原子数量、可旋转键数、氢键供体和受体数量等关键药理学特性上与药物样分子保持高度一致,进一步验证了其生成分子的合理性。

SHARP的模型架构由两个主要部分组成:可合成性评估模型(SEM)和强化学习(RL)代理。SEM负责生成分子的可合成性掩码,而RL代理则通过强化学习策略优化分子的生成过程。具体而言,SEM利用三个子模块:原子掩码生成模型、键掩码生成模型和片段掩码生成模型,这些模块分别处理分子结构的不同层面,以确保生成分子的可合成性。RL代理则采用了一种分层的强化学习策略,包括一个高级策略网络和一个子策略网络,以及一个批评网络(critic network)。高级策略网络负责选择分子生成的全局动作,而子策略网络则负责具体的操作细节。批评网络用于评估生成分子的奖励值,从而指导策略网络进行优化。

在训练过程中,SHARP采用了多种方法来优化其模型性能。首先,它使用了强化学习算法,如Soft Actor-Critic(SAC),来训练RL代理。其次,它通过一个综合的奖励函数,将结合亲和力、药效团匹配和溶剂可及表面积等指标结合在一起,以实现对分子生成过程的多目标优化。此外,SHARP还利用了预训练的SEM模型,以确保生成分子的可合成性。这些训练策略使得SHARP能够在生成分子时,同时优化结合亲和力和合成可行性,从而生成高质量的候选分子。

SHARP的性能在多个任务中得到了验证。在结合亲和力的评估中,SHARP生成的分子在Vina得分上表现优异,同时在与已知高结合亲和力分子的相似性上也取得了显著的提升。在合成可行性方面,SHARP生成的分子在SC得分(Synthetic Accessibility Score)上表现良好,其生成的分子中,有72.7%的分子SC得分低于4.0,表明其具有较高的合成可行性。此外,SHARP生成的分子在药物样性质(如QED得分)上也表现出色,表明其能够生成符合药物设计原则的分子。

为了进一步验证SHARP的性能,我们还进行了多个案例研究。在PRTM5MTA复合物系统中,SHARP能够生成与目标结合位点形状匹配且与关键残基(如GLN 309)形成极性相互作用的分子,显示出其对局部化学环境的准确理解。在Mycobacterium abscessus的PurC/SAICAR合成酶系统中,SHARP设计的连接子能够有效减少熵罚,同时保持与目标的最优相互作用。在SARS-CoV2的Mpro系统中,SHARP能够优化分子的两端,以提高与受体的结合能力。在NDM-1金属-β-内酰胺酶系统中,SHARP能够生成具有极性相互作用的侧链,从而提高与金属中心的结合能力。

这些结果表明,SHARP不仅在理论模型上具有优势,而且在实际药物发现任务中也表现出了显著的性能提升。通过其分层动作空间和综合奖励函数的设计,SHARP能够有效平衡结合亲和力、合成可行性和药物样性质,从而生成高质量的候选分子。此外,SHARP在多个任务中的表现,如片段生长、连接子设计、骨架跳跃和侧链修饰,均显示出其强大的通用性和适应性。

尽管SHARP在多个方面表现优异,但仍存在一些局限性。首先,作为一种强化学习框架,SHARP的性能依赖于其奖励函数的设计,这可能导致在某些情况下,生成的分子多样性受限。其次,SHARP的生成能力受到初始片段库的限制,因此其生成的分子只能基于已有的片段进行组合。此外,SHARP的优化过程依赖于其奖励函数的准确性,任何奖励函数的误差都可能影响生成分子的性能。然而,这些局限性并不影响SHARP在实际药物发现中的应用,因为其模块化设计使得这些限制可以在未来通过改进奖励函数和片段库来缓解。

总的来说,SHARP的提出为药物发现领域提供了一种新的分子生成方法,其通过分层动作空间和综合奖励函数的设计,能够有效平衡结合亲和力、合成可行性和药物样性质,从而生成高质量的候选分子。其在多个任务中的优异表现,以及在实际药物发现案例中的成功应用,表明SHARP在药物设计中具有重要的应用前景。未来的研究将进一步优化其奖励函数和片段库,以提高其生成分子的多样性和新颖性,并通过实验验证其在实际药物开发中的效果。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号