编辑推荐:
在化学合成规划中,逆合成(retrosynthesis)面临合成计划质量难定义、选择多等问题。研究人员围绕算法逆合成展开研究,改进深度优先证明数搜索(DFPN)算法为 DFPN*。结果显示,DFPN * 在多样性和效率上优于蒙特卡洛树搜索(MCTS)算法,为计算机辅助合成规划(CASP)提供新方向。
在有机化学的奇妙世界里,合成一个特定分子就像解开一道复杂的谜题。传统的逆合成方法,虽理论精妙,但在实际操作中困难重重。因为化学反应的可能性多得数不清,还要考虑各种限制条件,比如原料是否容易获得、反应过程是否安全、是否符合绿色化学理念等等,这使得人工制定合成计划需要深厚的专业知识和丰富的经验。
随着机器学习技术的飞速发展,计算机辅助合成规划(Computer - Assisted Synthesis Planning,CASP)领域迎来了曙光。不过,目前的 CASP 工具仍存在一些棘手的问题。一方面,现有反应数据不够完善,难以给出近乎无误差的解决方案;另一方面,不同化学分支对合成策略的最优性定义各不相同。在这样的背景下,寻找一种能生成多样且高质量合成路线的方法迫在眉睫。
来自德国拜耳公司(Bayer AG)等机构的研究人员勇挑重担,针对这些问题展开了深入研究。他们将研究成果发表在《Journal of Cheminformatics》上。研究人员对深度优先证明数搜索(Depth - First Proof - Number Search,DFPN)算法进行改进,得到了 DFPN * 算法。在研究过程中,为了衡量合成路线的多样性,他们创新性地提出了化学多样性分数(Chemical Diversity Score,CDS)这一指标。同时,他们还对 DFPN 算法的完整性进行了深入探讨。
研究人员用到的主要关键技术方法包括:基于游戏理论将逆合成问题转化为二人博弈,通过分析博弈过程寻找合成策略;利用深度优先证明数搜索及其变体算法探索合成路径;通过调整算法中的参数和策略,如修改证明数(proof number,pn)和反证数(disproof number,dn)的值,实现生成多样的合成路线。
下面来看看具体的研究结果:
- 解决分子数量对比:在较短搜索时间(60 - 300 秒)内,DFPN算法找到可行合成路线的分子数量比 MCTS 算法更多;在 600 - 1200 秒的搜索时间下,二者找到的分子数量相近,都能达到约 94% 。这表明在较短时间内,DFPN算法在寻找合成路线方面表现更优。
- 化学多样性分数(CDS)对比:MCTS 算法生成的路线中,化学多样性分数(CDS)中位数始终不高于 2;而 DFPN算法生成路线的 CDS 中位数,在最短搜索时间 60 秒时为 2,随着时间增加,到 600 秒时显著提升至 3.8,并在 1200 秒时保持稳定。这充分说明 DFPN算法生成的路线化学多样性更高。
- 平均反应数对比:在较短搜索时间(60 - 120 秒),DFPN算法到达目标分子所需的平均反应数多于 MCTS 算法;但 300 秒后,情况反转,DFPN算法所需平均反应数更少。这体现出 DFPN * 算法在搜索后期能找到更多短路线,而 MCTS 算法倾向于探索更长的路径。
- 路线可行性对比:在较短搜索时间内,MCTS 算法生成的路线平均可行性更高;300 秒时,二者可行性相似;300 秒之后,DFPN * 算法生成路线的可行性更高。这与路线长度分布以及两种算法对反应选择的偏好有关。
研究结论和讨论部分指出,DFPN * 算法在寻找多样合成路线方面表现卓越,为 CASP 工具的发展开辟了新道路。它能提供更符合用户需求、更高质量的合成路线,同时解决了当前 CASP 工具面临的两个主要挑战,即数据不完美和合成策略最优性定义不统一的问题。此外,该研究成果还为进一步利用多样性原则提供了思路,比如可基于此筛选化合物库中的化合物,减少合成工作量。这一研究成果在化学合成领域具有重要的理论和实践意义,为未来的化学研究和实际生产提供了有力的支持。