利用现有资源实现从头药物设计中的内部可合成性:生成可制备的化合物

【字体: 时间:2025年03月29日 来源:Journal of Cheminformatics 7.1

编辑推荐:

  在药物研发中,传统的设计 - 制造 - 测试 - 分析(DMTA)循环正被人工智能改变。为解决从头药物设计生成的分子结构不切实际、难以合成,且未考虑实验室资源限制等问题,研究人员开展基于计算机辅助合成规划(CASP)的内部从头药物设计研究。结果显示,使用约 6000 种内部构建模块可成功进行合成规划,还创建了内部可合成性分数。这为药物研发提供新途径,减少成本与浪费。

  在药物研发的世界里,传统的 “设计 - 制造 - 测试 - 分析(DMTA)” 循环正经历着一场变革。随着人工智能技术的飞速发展,它逐渐融入到药物研发的各个环节中。在药物设计阶段,从头药物设计方法崭露头角,旨在提出全新的分子结构,为寻找潜在的新药候选物带来了希望。然而,这条探索之路并非一帆风顺。
目前,在从头药物设计领域,一个突出的问题是生成的分子结构往往不切实际,难以合成。虽然已有一些策略将可合成性纳入考量,但大多存在局限性。例如,直接使用合成规划评估分子可合成性,计算要求高且耗时,与基于优化的从头药物设计方法不兼容;而使用可合成性启发式方法或基于 CASP 的可合成性分数,虽能提高可合成性,但缺乏实验评估,且这些方法假设构建模块近乎无限可用,与实际实验室环境相差甚远。在实际的实验室中,资源有限,预算和构建模块的交付时间都受到限制,因此,开发一种基于现有资源的内部可合成性概念显得尤为重要。

为了解决这些问题,来自莱顿大学(Leiden University)等机构的研究人员开展了一项深入研究。他们致力于实现基于内部可用资源的从头药物设计,探索在资源受限的环境下,如何高效地设计并合成具有活性的药物分子。

研究人员首先进行了合成规划的转移实验。他们使用开源合成规划工具包 AiZynthFinder,对比了使用 5955 种莱顿大学内部构建模块(“Led3”)和 1740 万种商业化合物(“Zinc”)进行合成规划的性能。结果发现,尽管 Led3 构建模块数量远少于 Zinc,但合成规划性能差异并不显著。使用 Led3 构建模块时,除部分数据集外,大多数数据集的可解率在 60% 左右,而使用 Zinc 构建模块时可解率约为 70%,仅相差 12%。不过,使用 Led3 构建模块的最短合成路线平均比使用 Zinc 构建模块长两个反应步骤。这表明,即使构建模块数量有限,也能进行有效的合成规划,为在实验室内部开展合成工作提供了可能。

接着,研究人员训练了一种基于 CASP 的内部可合成性分数。他们利用之前生成的合成路线数据,训练 XGBoost 模型来预测分子能否使用内部构建模块进行合成。实验结果显示,该模型在评估内部可合成性方面表现出色,在多个数据集上的 F1分数和马修斯相关系数(MCC)都达到了较高水平,且能在不同测试集上实现良好的泛化。这意味着该模型可以准确地评估分子在实验室内部的可合成性,为后续的药物设计提供了有力的支持。

在从头药物设计实验中,研究人员将内部可合成性分数与单甘油酯脂肪酶(MGLL)的定量构效关系(QSAR)模型相结合,训练了多目标分子生成器 DrugEx。通过对比不同可合成性分数和 QSAR 模型组合的训练结果,他们发现基于 CASP 的可合成性分数能够促进生成大量内部可合成且具有潜在活性的药物候选分子。其中,基于 Caspyrus10k 数据集训练的分数生成的可解且活性分子数量最多。

为了进一步验证研究成果,研究人员对生成的分子进行了实验评估。他们通过虚拟筛选、合成路线筛选等一系列操作,从众多候选分子中挑选出三个分子进行实验验证。实验结果显示,化合物 1 表现出明显的活性,IC50为 1 μM,化合物 2 和 3 也表现出一定的活性,IC50约为 100 μM。这表明研究人员成功地生成了内部可合成且具有活性的药物候选分子。

研究人员还对从头生成的候选分子进行了批判性分析。他们对比了合成的候选分子与已知配体,发现虽然部分候选分子具有活性且可内部合成,但在关键支架的新颖性方面存在局限。通过分析生成的候选分子空间与已知配体空间的关系,他们发现 QSAR 模型能够引导生成在已知活性配体区域的分子,而内部可合成性分数也能有效地筛选出可合成的分子。此外,模型还生成了一些尚未被测试的分子簇,这些区域可能蕴含更具创造性的配体。

综上所述,研究人员成功引入了一种端到端且经过实验评估的内部从头药物设计方法。该方法利用有限的内部资源,减少了药物研发过程中的成本、交付时间和化学 waste。通过实验,他们证明了使用少量内部构建模块进行合成规划的可行性,并创建了可快速训练的内部可合成性分数。这些成果为药物研发提供了新的思路和方法,推动了人工智能技术在药物研发领域的实际应用。

在技术方法方面,研究人员主要运用了以下几种关键技术:一是使用开源的 AiZynthFinder 框架进行合成规划,以评估不同构建模块下分子的合成可行性;二是利用 XGBoost 算法训练基于 CASP 的可合成性分数,预测分子的可合成性;三是运用 DrugEx 分子生成器,结合 QSAR 模型和不同的可合成性分数,生成潜在的药物候选分子;四是通过虚拟筛选和实验验证,对生成的分子进行评估和分析。

在研究结果部分:

  • 内部可合成性:通过对比使用不同构建模块进行合成规划的实验,发现使用少量内部构建模块虽会使合成路线略长,但合成规划性能损失仅为 12%,表明存储大量商业构建模块并非必要。
  • 内部可合成性分数:训练的基于 CASP 的内部可合成性分数模型在多个数据集上表现良好,能准确评估分子在实验室内部的可合成性。
  • 生成分子的内部可合成性:将内部可合成性分数与 MGLL 的 QSAR 模型结合,成功生成了数千种内部可合成且具有潜在活性的药物候选分子。
  • 可合成性分数对生成分子的影响:不同的可合成性分数会影响生成分子的化学空间分布,且在应用时需注意其可靠性。
  • 实验候选分子和合成路线评估:经过虚拟筛选和实验验证,发现一种具有明显活性的候选分子,证明了生成的分子和合成路线的可行性。
  • 对从头生成候选分子的批判性分析:合成的候选分子在关键支架新颖性上有限,QSAR 模型和内部可合成性分数在分子生成过程中起到了相应的作用,且模型生成的一些区域可能存在更具创造性的配体。

研究结论和讨论部分的重要意义在于,这项研究不仅解决了传统从头药物设计中存在的问题,还为药物研发提供了一种更高效、更可持续的方法。通过利用内部资源和开发针对性的可合成性分数,研究人员能够更快速地生成可实验验证的药物候选分子,为后续的药物研发奠定了坚实的基础。同时,研究中发现的问题也为未来的研究指明了方向,如改进评估蛋白 - 配体活性的方法、优化合成规划性能等,有望推动药物研发领域的进一步发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号