DiffER:基于类别扩散模型的单步化学逆合成预测新方法

【字体: 时间:2025年07月31日 来源:Journal of Cheminformatics 5.7

编辑推荐:

  本研究针对传统自回归模型在化学逆合成预测中的局限性,提出了一种名为DiffER的模板自由方法。该方法采用类别扩散模型(categorical diffusion)构建集成模型,实现了SMILES序列的同步预测,在USPTO-50K数据集上取得57.6%的top-1准确率(state-of-the-art),并展现出对多种实验室合成技术的强大学习能力。其创新的长度预测组件和集成策略为扩散模型在化学序列生成领域树立了新基准。

  

在药物研发的复杂迷宫中,化学家们长期面临着一个关键挑战:如何高效规划从目标分子回溯到可用原料的合成路径?传统逆合成预测方法如同拿着旧地图的探险者——基于反应模板的规则系统虽可靠但缺乏灵活性,而新兴的自回归模型(如Transformer)虽能"逐词翻译"分子结构,却受限于必须按顺序生成SMILES(Simplified Molecular Input Line Entry System)字符串的固有缺陷。

俄亥俄州立大学(The Ohio State University)的研究团队在《Journal of Cheminformatics》发表的突破性研究,将人工智能领域炙手可热的扩散模型(diffusion model)引入化学逆合成领域。这种通常用于图像生成的技术,被创新性地改造为处理离散的分子序列数据。与需要"从左到右"生成文字的自回归模型不同,扩散模型能像画家作画般同步处理整个分子结构,理论上更适应化学分子中普遍存在的环状、支链等非序列特征。

研究团队开发了名为DiffER(Diffusion Ensembles for Retrosynthesis)的集成系统,其核心技术包含三大创新:1)将分子表示为类别分布进行扩散(categorical diffusion);2)设计可预测长度变化的变长编码器;3)融合8个不同参数模型的预测结果。这种设计使模型能同时考虑分子各部分的相互作用,例如准确预测苯环闭合所需的协同原子排布。

关键技术方法包括:1)基于Transformer的编码器-解码器架构(6层/8头注意力);2)多噪声步长的余弦调度(T=200步);3)结合均方误差(MSE)和变分下界(VLB)的混合损失函数;4)USPTO-50K数据集(含50,000个专利反应)的Root-aligned SMILES数据增强。

整体性能

在模板自由方法比较中,DiffER的top-1准确率达57.6%,超越所有基线模型。对酰化反应(acylation)的预测准确率高达70.4%,但对杂环形成反应(heterocycle formation)仅33.3%,显示模型对特定反应类型的敏感性。

个体模型性能

单个扩散模型的top-1准确率在53.2%-55.4%之间,而集成策略使性能提升4.2个百分点。基线长度预测模型(无变长处理)准确率骤降至40.4%,证实长度预测对扩散模型的关键影响。

性能上限分析

假设模型能完美预测SMILES长度变化的"预言机模型"(oracle length)取得77.0%的top-1准确率,表明当前长度预测仍是制约扩散模型性能的主要瓶颈。

案例研究

在典型案例中,DiffER不仅能重现专利反应(如Borch还原胺化反应预测准确率74.3%),还能提出可行替代方案。例如对酮还原反应,模型既预测到真实的硼氢化钠还原路径(38.3%),也识别出格氏试剂(Grignard reagent)的替代路线(42.2%),尽管后者可能产生更多副产物。

这项研究标志着扩散模型在化学逆合成领域的成功应用,其非自回归特性为分子生成提供了新范式。实际意义体现在三方面:1)为药物研发提供更高效的逆合成规划工具;2)证明离散数据扩散模型的可行性;3)揭示长度预测对序列生成的关键作用。局限性在于输出多样性不足(平均每个反应仅生成5种不同分子)和对特定反应类型的偏差。未来研究可聚焦:1)开发自适应长度预测算法;2)增强对副反应路径的学习;3)构建包含多可能反应的训练数据集。该成果不仅为计算机辅助合成设计(CASD)开辟新方向,也为其他离散序列生成任务(如蛋白质设计)提供了借鉴范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号