编辑推荐:
针对药物化学中“结构相似性”与“骨架迁越”难以兼顾的问题,本研究开发了基于Transformer的序列生成模型ANNalog。该模型利用ChEMBL33中同源分子对进行训练,结合Levenshtein距离对齐的SMILES预处理策略,显著提升了生成质量。研究证实,该模型不仅能进行精细的取代基替换,还能在用户引导下(前缀控制)有效恢复约25%的已知专利骨架,为药物发现提供了高效的类药分子生成工具。
在药物研发的漫长旅途中,寻找一个既能治病又安全的“完美分子”如同大海捞针。传统的药物发现往往依赖于化学家们的直觉和经验,在浩如烟海的化学空间中“盲选”。近年来,生成式深度学习模型(Generative deep learning models)虽然展现出了强大的分子设计能力,能够快速“幻想”出无数个具有类药性(drug-like)的分子,但在实际药物化学(Medicinal Chemistry)项目中,研究人员真正需要的往往不是天马行空的创造,而是“有根据的演变”——即在保留母体分子生物活性的前提下,进行结构上的微调(如替换取代基)或大刀阔斧的改造(如更换分子骨架,即Scaffold Hopping)。前者是为了优化药代动力学性质,后者则是为了规避专利壁垒或解决毒性问题。然而,现有的许多模型在“模仿”与“跳跃”之间难以取得平衡,要么生成过于保守的相似分子,要么生成化学上不可行或生物活性全无的“怪胎”。如何让AI真正理解药物化学家的“设计语言”,成为了一个亟待解决的问题。
为了破解这一难题,发表在Journal of Cheminformatics上的这项研究提出了ANNalog——一个专门为生成药物化学空间中的类似物(analogues)而设计的模型。与以往基于随机筛选或单纯分子相似度训练的策略不同,ANNalog的训练数据源自ChEMBL33数据库中一个被忽视的“黄金标准”:同一篇论文中、同一项生物活性测定(bioactivity assay)里被同时测试的分子对。研究团队认为,这些在真实药物研发项目中“同场竞技”的分子,天然就是彼此在药物化学空间中的“亲戚”(analogues)。通过这种巧妙的数据构建方式,ANNalog不仅学会了生成结构高度相似的分子,更令人惊喜地掌握了骨架迁越(scaffold hopping) 的“魔法”,能够生成结构迥异但生物活性相关的合理分子。在针对食欲素-2受体(Orexin-2 receptor)拮抗剂的案例研究中,ANNalog在用户利用前缀控制(prefix control) 功能进行引导时,成功“找回”了约25%的已知专利骨架,证明了其在辅助药物化学家进行定向探索方面的巨大潜力。这项研究为AI驱动的药物发现提供了一种新的范式:不再追求无目的的生成,而是进行有化学直觉的、目标导向的分子演化。
关键技术方法
本研究基于ChEMBL33数据库,筛选出同一论文、同一生物测定实验中的分子对构建训练集。关键技术包括:将分子对编码为SMILES(Simplified Molecular Input Line Entry System) 字符串,并应用Levenshtein距离进行序列对齐以最大化分子对间的字符串相似性,作为基于Transformer的序列到序列(Seq2Seq)模型的输入。模型性能评估采用基于Transformer的序列到序列(Seq2Seq)生成任务,并通过手动筛选的分子对和专利案例(如Orexin-2 receptor antagonists)验证其生成类似物(含取代基替换和骨架迁越)的能力,特别测试了前缀控制(prefix control)功能在约束生成过程中的效果。
研究结果
数据构建与模型设计策略
通过同源分子对训练实现化学直觉学习
研究团队没有采用传统的基于分子指纹相似度随机配对的方法,而是从ChEMBL33数据库中提取了在同一篇论文、同一项生物活性测定中被共同测试的分子对。这种数据构建策略基于一个核心假设:在同一药物化学项目中合成的分子,即使结构存在差异,也共享相似的生物活性背景,是真正的“药物化学类似物”。这些分子对被编码为SMILES字符串后,经过Levenshtein距离引导的对齐处理,显著提高了模型学习结构-活性关系(SAR)的效率。这种设计使得ANNalog的输入数据天然包含了化学家对分子进行修饰的逻辑,为模型后续生成合理的类似物奠定了基础。
模型生成能力的双重验证
兼具细微修饰与骨架迁越的生成能力
ANNalog展现出了双重生成能力。一方面,它能够进行细微的取代基替换,生成与母体分子高度相似、仅有个别原子或基团差异的类似物,这对于先导化合物的优化至关重要。另一方面,也是其最突出的能力,是能够进行骨架迁越(scaffold hopping)。模型生成的分子中,出现了大量核心骨架发生改变、但整体化学环境(如药效团特征)得以保留的合理结构。这种能力在针对Orexin-2 receptor拮抗剂的专利案例研究中得到了进一步证实,模型生成的分子在结构上覆盖了专利中已知的多种骨架类型,证明了其生成结果的化学相关性和多样性。
前缀控制功能的定向生成效能
用户引导显著提升骨架恢复率
研究引入了前缀控制(prefix control) 机制,允许用户通过指定分子结构的起始部分(前缀)来约束模型的生成方向。在针对专利分子集的约束生成实验中,当用户利用已知的化学结构信息进行引导时,ANNalog成功恢复了专利集中约25%的已知分子骨架。这一结果具有重要应用意义,它表明ANNalog并非一个不可控的“黑箱”生成器,而是一个能够与药物化学家协同工作的工具。化学家可以将已有的知识(如必须保留的活性基团)作为前缀输入模型,从而在庞大的化学空间中高效地、定向地探索具有特定属性的新分子,极大提升了AI辅助药物设计的效率与针对性。
结论与意义
本研究开发的ANNalog模型,通过利用ChEMBL33中同源分子对进行训练,成功解决了生成式模型在药物化学应用中“保守性”与“多样性”的矛盾。它不仅能够生成结构相似的类似物,更能实现有化学意义的骨架迁越。特别是其前缀控制(prefix control) 功能,证明了用户引导可以显著提升模型在特定方向(如已知活性区域)的探索效率,实现了AI与人类专家知识的有效融合。该模型为药物化学家提供了一个强大的、可交互的分子生成工具,能够加速从先导化合物优化到新骨架发现的进程,代表了AI在药物发现领域向实用化、专业化迈进的重要一步。