编辑推荐:
为解决现有计算机辅助合成规划方法无法有效利用目标间潜在共享路径的问题,Johnson & Johnson 的研究人员开展了收敛式逆合成路线开发的研究,发现超 70% 的反应涉及收敛合成,该方法可提升逆合成规划效率,减少合成时间和成本9。
在药物研发的 “神秘旅程” 中,化合物合成堪称关键的 “关卡”。从筛选出的苗头化合物开始,到设计一系列结构相关的分子去探索结构 - 活性关系(SAR),确定合适的合成路径至关重要,而逆合成则是解锁这一关键路径的 “钥匙”。逆合成就像是把复杂的化合物 “拆解”,一步步找到可购买或容易合成的原料。近年来,计算机辅助合成规划方法借助机器学习的力量,为探索潜在合成路线带来了新希望,但它们大多是针对单一产品设计的,无法充分挖掘不同目标化合物之间潜在的共享路径,难以满足药物化学领域以库模式合成一系列目标化合物的需求。
为了突破这一困境,来自 Johnson & Johnson 等机构的研究人员踏上了探索之旅,开展了关于利用收敛式逆合成规划改善合成路线开发的研究。他们的研究成果意义非凡,不仅为药物研发中的化合物合成开辟了新途径,还可能大幅降低合成的时间和成本。相关研究发表在《Journal of Cheminformatics》期刊上。
研究人员在这项研究中运用了多种关键技术方法。首先,他们开发了一种基于图的处理流程,用于从反应数据中识别和提取收敛式路线。通过原子映射确定产物和反应物,并依据其对产物的贡献进行分类。然后,将反应数据构建成有向图,通过遍历图来识别收敛式路线。在多步合成规划方面,他们基于有向图进行多步搜索,利用单步模型的分数来指导搜索方向,优先选择适用于所有目标分子的路线12。
下面来看看具体的研究结果:
- 收敛式路线数据集:研究人员分别利用 J&J ELN 和 USPTO 数据创建了收敛式路线数据集。他们发现,收敛式路线在药物化学中极为重要,J&J ELN 中 79% 的反应属于收敛式路线,85% 的文档至少包含一条收敛式路线;USPTO 中 70% 的反应涉及收敛式路线,尽管文档覆盖率较低,但也有 37% 的文档包含收敛式路线。收敛式路线通常较为复杂,多数具有多个目标分子和较多反应步骤。而且,通过收敛式路线方法,合成分子所需的反应数量显著减少,例如在 USPTO 数据中,合成 988,476 个分子的反应数量减少了 40%3。
- 多步搜索:研究人员开发了新的多步合成规划框架,利用 J&J ELN 和 USPTO 的收敛式路线数据集进行多步搜索评估。单步模型在 J&J ELN 和 USPTO 数据集上均表现出较高的准确率,在 top-10 时分别达到 85% 和 75%。该多步搜索方法在多数情况下能有效生成收敛式路线,J&J ELN 和 USPTO 的测试集中,分别有 81% 和 89.4% 的库能在 top-10 提出的路线中找到单一收敛式路线。考虑所有目标分子的可解性时,这一比例更高。此外,该方法还能为大量单个化合物提供合成路线,J&J ELN 和 USPTO 中分别有 97.5% 和 99.5% 的单个化合物能找到逆合成路线45。
- 路线准确性与相似性:与实验验证路线相比,提出的路线准确性存在一定挑战,但在 top-10 提出的路线中,J&J ELN 和 USPTO 分别有 20.0% 和 20.9% 能复制实验验证路线,且分别有 41.1% 和 47.0% 能正确识别共同中间体。研究人员引入 F1 分数来量化路线相似性,发现超过一半的库在 top-5 时 F1 分数高于 0.55,top-10 时超过 34% 的路线 F1 分数高于 0.75。同时,反应步骤数量对 F1 分数影响较大,结构相似的化合物库 F1 分数更高67。
- 反应类型分析:通过 NameRxn 为提出的反应分配反应类型,研究人员发现 J&J ELN 和 USPTO 在 top-5 时反应名称准确率分别提升至 31.6% 和 27.6%,反应类别的准确率分别提升至 34.4% 和 31.4%。这表明提出的路线与实验验证路线在反应类型上有一定相似性,尽管具体反应步骤可能不同88。
研究人员成功开发出一种多步合成规划方法,能够同时搜索多种产物和中间体,开发收敛式合成路线。这种方法显著提升了逆合成规划的整体效率和实际适用性,避免了组合多个单独路线时可能出现的组合爆炸问题。研究结果表明,超 70% 的反应存在于收敛式路线中,利用该收敛式路线方法,研究人员能为超 80% 的测试路线确定收敛式路线,为超 97% 的化合物生成合成路线。而且,超过三分之一的化合物库中,提出的路线与实验验证路线相似。这一研究成果为药物研发中的化合物合成提供了更高效、更经济的策略,为加速药物发现进程奠定了坚实基础。