RPSubAlign:基于子结构对齐的分子序列表征方法显著提升逆合成预测的准确性与稳健性

【字体: 时间:2025年06月09日 来源:Briefings in Bioinformatics 6.8

编辑推荐:

  针对现有逆合成预测中分子表征方法忽视结构关联导致准确性和稳健性不足的问题,华东理工大学团队开发了RPSubAlign方法。该方法通过对齐反应物与产物的最大公共子结构(MCS),在USPTO-50K数据集上实现Top-1准确率34.8%的提升,语法有效性达86.64%。研究为计算机辅助合成规划(CASP)提供了更可靠的序列到序列(Seq2Seq)解决方案。

  

在药物研发和有机合成领域,逆合成路线设计如同化学家的"逆向思维游戏"——需要将复杂分子拆解为可购买的简单前体。尽管计算机辅助合成规划(CASP)已显著提升效率,但现有序列化模型常将反应物与产物视为独立实体,忽视其结构关联性,导致预测结果常出现"语法错误"的无效分子或偏离真实反应路径的情况。这种"盲人摸象"式的表征方法,成为制约逆合成预测准确性和实用性的关键瓶颈。

华东理工大学的研究团队在《Briefings in Bioinformatics》发表的研究中,提出了革命性的RPSubAlign方法。该方法创新性地引入最大公共子结构(MCS)对齐策略,通过RDKit工具识别反应物与产物间的结构共性,重新编排原子编号序列,使Transformer模型能更精准捕捉化学反应的本质规律。研究团队在USPTO-50K和USPTO-MIT两大基准数据集上的实验表明,这种方法不仅让模型训练速度提升3倍(20k步即收敛),更在多项指标上刷新纪录:使用SMILES表征时Top-1准确率提升至37.8%,而采用SELFIES表征时更飙升至55.9%,且分子生成有效性达到惊人的100%。

关键技术方法包括:1)基于RDKit的MCS识别与原子重排算法;2)SMILES/SELFIES双表征体系构建;3)Transformer框架下的序列到序列建模;4)多维度评估体系(Top-N准确率、MaxFrag片段匹配率、语法有效性)。特别值得注意的是,研究采用的数据增强策略仅需5倍扩增即可达到最优效果,显著降低了计算资源消耗。

【RPSubAlign增强序列相似性】
通过Levenshtein距离量化分析发现,传统随机SMILES表征中反应物与产物序列相似度仅0.26-0.38,而经RPSubAlign对齐后跃升至0.70-0.87。这种"镜像对称"的序列排布使模型注意力机制能形成清晰的聚焦带(见图7a),而非基准模型的模糊或分散模式。这种改进直接反映在训练效率上——RPSubAlign仅需20k训练步即收敛,而随机SMILES需要70k步以上。

【SMILES表征性能】
在无数据增强条件下,RPSubAlign_SMILES在USPTO-50K上的Top-1准确率(28.63%)显著优于随机SMILES(25.51%)和根对齐方法R_SMILES(4.97%)。更引人注目的是其稳定性——十次实验的标准差仅±3.05%,而R_SMILES高达±10.44%。语法有效性方面,RPSubAlign_SMILES以86.64%的表现证明其能更好地遵守化学结构规则。

【数据增强影响】
当数据扩增至40倍时,RPSubAlign_SMILES的Top-1准确率稳步提升至34.34%,呈现明显的剂量效应。与之对比,R_SMILES在5倍扩增时出现"性能悬崖"(准确率从25.51%骤降至8.06%),表明其对数据扰动异常敏感。这种稳健性使RPSubAlign在真实场景中更具应用价值。

【SELFIES表征突破】
采用SELFIES编码后,RPSubAlign展现出"双百"特性:在10倍数据增强下,不仅保持100%的语法有效性,Top-10准确率更达74.8%,MaxFrag匹配率79.8%。这验证了子结构对齐策略对不同分子表征体系的普适性优势。

【案例验证】
在叔丁氧羰基保护反应中(图7a),RPSubAlign_SMILES首次预测即生成正确反应物,而随机SMILES产生的是无法完成合成的单分子。在萘醌加氢反应中(补充图S1),RPSubAlign_SMILES的Top-1预测结构简洁合理,而基准模型需要Top-3才能得到可行方案,且结构复杂度过高。

这项研究的意义不仅在于技术突破,更开辟了"结构感知"的分子表征新范式。相比需要32万额外训练数据的RetroWISE模型,RPSubAlign仅用原始数据集就实现可比性能,大幅降低数据依赖。尽管在反应条件预测等方面仍有局限,但其在药物发现、材料设计等领域的应用前景广阔。研究团队已开源代码并发布Hugging Face模型,这种开放态度将加速化学人工智能的发展。未来工作可探索与大型化学语言模型(如ChemDFM)的融合,进一步释放子结构对齐策略的潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号