ANNalog：基于Transformer与ChEMBL33同源分子对训练的类药分子及骨架迁越生成模型

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Cheminformatics》：ANNalog: generation of MedChem-similar molecules

【字体：大中小】 时间：2026年04月16日 来源：Journal of Cheminformatics 5.7

编辑推荐：

　　针对药物化学中“结构相似性”与“骨架迁越”难以兼顾的问题，本研究开发了基于Transformer的序列生成模型ANNalog。该模型利用ChEMBL33中同源分子对进行训练，结合Levenshtein距离对齐的SMILES预处理策略，显著提升了生成质量。研究证实，该模型不仅能进行精细的取代基替换，还能在用户引导下（前缀控制）有效恢复约25%的已知专利骨架，为药物发现提供了高效的类药分子生成工具。

在药物研发的漫长旅途中，寻找一个既能治病又安全的“完美分子”如同大海捞针。传统的药物发现往往依赖于化学家们的直觉和经验，在浩如烟海的化学空间中“盲选”。近年来，生成式深度学习模型（Generative deep learning models）虽然展现出了强大的分子设计能力，能够快速“幻想”出无数个具有类药性（drug-like）的分子，但在实际药物化学（Medicinal Chemistry）项目中，研究人员真正需要的往往不是天马行空的创造，而是“有根据的演变”——即在保留母体分子生物活性的前提下，进行结构上的微调（如替换取代基）或大刀阔斧的改造（如更换分子骨架，即Scaffold Hopping）。前者是为了优化药代动力学性质，后者则是为了规避专利壁垒或解决毒性问题。然而，现有的许多模型在“模仿”与“跳跃”之间难以取得平衡，要么生成过于保守的相似分子，要么生成化学上不可行或生物活性全无的“怪胎”。如何让AI真正理解药物化学家的“设计语言”，成为了一个亟待解决的问题。

为了破解这一难题，发表在Journal of Cheminformatics上的这项研究提出了ANNalog——一个专门为生成药物化学空间中的类似物（analogues）而设计的模型。与以往基于随机筛选或单纯分子相似度训练的策略不同，ANNalog的训练数据源自ChEMBL33数据库中一个被忽视的“黄金标准”：同一篇论文中、同一项生物活性测定（bioactivity assay）里被同时测试的分子对。研究团队认为，这些在真实药物研发项目中“同场竞技”的分子，天然就是彼此在药物化学空间中的“亲戚”（analogues）。通过这种巧妙的数据构建方式，ANNalog不仅学会了生成结构高度相似的分子，更令人惊喜地掌握了骨架迁越（scaffold hopping） 的“魔法”，能够生成结构迥异但生物活性相关的合理分子。在针对食欲素-2受体（Orexin-2 receptor）拮抗剂的案例研究中，ANNalog在用户利用前缀控制（prefix control） 功能进行引导时，成功“找回”了约25%的已知专利骨架，证明了其在辅助药物化学家进行定向探索方面的巨大潜力。这项研究为AI驱动的药物发现提供了一种新的范式：不再追求无目的的生成，而是进行有化学直觉的、目标导向的分子演化。

关键技术方法

本研究基于ChEMBL33数据库，筛选出同一论文、同一生物测定实验中的分子对构建训练集。关键技术包括：将分子对编码为SMILES（Simplified Molecular Input Line Entry System） 字符串，并应用Levenshtein距离进行序列对齐以最大化分子对间的字符串相似性，作为基于Transformer的序列到序列（Seq2Seq）模型的输入。模型性能评估采用基于Transformer的序列到序列（Seq2Seq）生成任务，并通过手动筛选的分子对和专利案例（如Orexin-2 receptor antagonists）验证其生成类似物（含取代基替换和骨架迁越）的能力，特别测试了前缀控制（prefix control）功能在约束生成过程中的效果。

研究结果

数据构建与模型设计策略

通过同源分子对训练实现化学直觉学习

研究团队没有采用传统的基于分子指纹相似度随机配对的方法，而是从ChEMBL33数据库中提取了在同一篇论文、同一项生物活性测定中被共同测试的分子对。这种数据构建策略基于一个核心假设：在同一药物化学项目中合成的分子，即使结构存在差异，也共享相似的生物活性背景，是真正的“药物化学类似物”。这些分子对被编码为SMILES字符串后，经过Levenshtein距离引导的对齐处理，显著提高了模型学习结构-活性关系（SAR）的效率。这种设计使得ANNalog的输入数据天然包含了化学家对分子进行修饰的逻辑，为模型后续生成合理的类似物奠定了基础。

模型生成能力的双重验证

兼具细微修饰与骨架迁越的生成能力

ANNalog展现出了双重生成能力。一方面，它能够进行细微的取代基替换，生成与母体分子高度相似、仅有个别原子或基团差异的类似物，这对于先导化合物的优化至关重要。另一方面，也是其最突出的能力，是能够进行骨架迁越（scaffold hopping）。模型生成的分子中，出现了大量核心骨架发生改变、但整体化学环境（如药效团特征）得以保留的合理结构。这种能力在针对Orexin-2 receptor拮抗剂的专利案例研究中得到了进一步证实，模型生成的分子在结构上覆盖了专利中已知的多种骨架类型，证明了其生成结果的化学相关性和多样性。

前缀控制功能的定向生成效能

用户引导显著提升骨架恢复率

研究引入了前缀控制（prefix control） 机制，允许用户通过指定分子结构的起始部分（前缀）来约束模型的生成方向。在针对专利分子集的约束生成实验中，当用户利用已知的化学结构信息进行引导时，ANNalog成功恢复了专利集中约25%的已知分子骨架。这一结果具有重要应用意义，它表明ANNalog并非一个不可控的“黑箱”生成器，而是一个能够与药物化学家协同工作的工具。化学家可以将已有的知识（如必须保留的活性基团）作为前缀输入模型，从而在庞大的化学空间中高效地、定向地探索具有特定属性的新分子，极大提升了AI辅助药物设计的效率与针对性。

结论与意义

本研究开发的ANNalog模型，通过利用ChEMBL33中同源分子对进行训练，成功解决了生成式模型在药物化学应用中“保守性”与“多样性”的矛盾。它不仅能够生成结构相似的类似物，更能实现有化学意义的骨架迁越。特别是其前缀控制（prefix control） 功能，证明了用户引导可以显著提升模型在特定方向（如已知活性区域）的探索效率，实现了AI与人类专家知识的有效融合。该模型为药物化学家提供了一个强大的、可交互的分子生成工具，能够加速从先导化合物优化到新骨架发现的进程，代表了AI在药物发现领域向实用化、专业化迈进的重要一步。

联系信箱：

粤ICP备09063491号