
-
生物通官微
陪你抓住生命科技
跳动的脉搏
单步反应与多步规划在逆合成分析中的协同作用:提升药物发现与材料设计的可行性路径
【字体: 大 中 小 】 时间:2025年08月29日 来源:Journal of Cheminformatics 5.7
编辑推荐:
本研究针对逆合成分析中单步反应预测与多步路线规划的脱节问题,整合了三种规划算法(Retro、EG-MCTS、MEEA)与五种单步逆合成模型(Default、AZF、LocalRetro、Chemformer、ReactionT5),在六个数据集上系统评估了组合性能。创新性提出"路线可行性(Route Feasibility)"指标,发现最高可解性组合(MEEA-Default)并非最优实践方案,而Retro-Default在综合指标"逆合成可行性(Retrosynthetic Feasibility)"中表现最佳。该研究为计算逆合成与实验室执行的鸿沟搭建了量化桥梁,发表于《Journal of Cheminformatics》。
在药物研发的分子迷宫中,化学家们长期面临一个核心挑战:如何将复杂目标分子逆向拆解为可获取的前体?传统逆合成分析(Retrosynthesis)如同化学版的"拆解积木",但现实中存在单步预测与多步规划割裂、路线可行性难以量化等痛点。Junseok Choe1?、Hajung Kim1?等研究者通过《RETROSYNTHETIC CROSSTALK BETWEEN SINGLE-STEP REACTION AND MULTI-STEP PLANNING》研究,为这一领域带来了突破性解决方案。
研究团队首先揭示了当前逆合成技术的两大瓶颈:其一,机器学习虽提升了单步逆合成预测(Single-step Retrosynthesis Prediction Model, SRPM)精度,但多步路线生成仍依赖简单多层感知机(MLP),导致规划质量受限;其二,现有评估过度关注"可解性(Solvability)",而忽略实际合成成功率。如图1所示,MEEA-Default组合虽实现95%可解性,但其路线可行性显著低于Retro-Default组合,这种"可解性陷阱"直接制约着实验室转化效率。

为解决这些问题,研究者构建了多步逆合成规划框架(MRPF),其核心技术包括:1)采用三种规划算法——基于A搜索的Retro、蒙特卡洛树搜索改进的EG-MCTS、以及融合两者的MEEA*;2)整合五类SRPM,涵盖模板型(如AZF)与无模板型(如ReactionT5)模型;3)引入反应可行性模型(RFM)量化单步反应成功概率,并创新性提出"路线可行性"指标,通过平均单步得分评估整体路径的实验室可实现性。
关键研究结果
算法性能对比
在六个数据集(含专利分子库Patent200和FDA药物库DrugBank)的90组测试中,Retro*-Default以54.67%的路线可行性居首,其"逆合成可行性"(可解性×路线可行性)达53%,显著优于其他组合。值得注意的是,EG-MCTS虽在生成短路径(平均3.04步)方面表现突出,但可行性仅53.19%,揭示"路径长度-可行性"的权衡关系。
反应复杂度影响
如图5-8所示,高可行性反应(≥80%)中双分子反应占比达75%,而低可行性反应(≤20%)多为三分子以上复杂转化。深度分析显示,随着反应深度增加,可行性平均下降23.6%,印证了"多步累积误差"效应。

案例验证
在抗HIV药物Fostemsavir的逆合成案例中(图13),MEEA-Default虽提出4步短路径,但含C-P键形成等低可行性步骤(<20%);而Retro-Default的6步路径虽长,却通过酰胺偶联等可靠反应实现整体可行性提升42%。
研究启示
该研究首次系统论证了单步预测模型与多步规划算法的协同效应,其提出的"逆合成可行性"指标为计算化学与实验化学搭建了量化桥梁。对于含卤素、醇羟基等难合成基团的分子(如Patent200中100%含卤素分子),现有模型仍存在覆盖度局限,这为未来研究指明了方向——开发融合反应收率、商业原料价格等化学感知(chemical-aware)成本函数的下一代规划算法。
这项发表于《Journal of Cheminformatics》的工作,不仅为ASKCOS等开源平台提供了优化基准,更推动逆合成分析从"能否解出"向"能否合成"的范式转变,加速了人工智能在药物研发中的实际应用进程。
生物通微信公众号
知名企业招聘