
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:分子表征方法的最新进展及其在骨架跃迁中的应用
【字体: 大 中 小 】 时间:2025年07月01日 来源:npj Drug Discovery
编辑推荐:
这篇综述系统梳理了AI驱动的分子表征(Molecular Representation)技术革新如何推动药物发现进程,重点探讨了语言模型(如BERT)、图神经网络(GNN)和对比学习等方法在骨架跃迁(Scaffold Hopping)中的应用优势与挑战,为探索化学空间和优化先导化合物提供了新范式。
分子表征是连接化学结构与生物活性的桥梁,传统方法如SMILES字符串和分子指纹(ECFP)虽计算高效,但难以捕捉复杂结构-功能关系。AI技术通过语言模型、图网络等高维嵌入,实现了从预定义规则到数据驱动范式的跨越。如图1所示,2018年后Transformer和GNN的引入成为关键转折点。

基于自然语言处理(NLP)的模型如Mol2vec将分子子结构视为"单词",通过Word2vec算法生成稠密向量。Mol-BERT等模型通过SMILES序列的掩码预训练,捕获原子间非线性关系,但其线性序列特性对三维空间信息编码存在局限。
GNN将原子作为节点、化学键为边,直接建模分子拓扑结构。Attentive FP通过注意力机制捕获非局部效应,而GROVER结合消息传递与Transformer架构,在1100万未标记分子上预训练后,显著提升激酶抑制剂预测精度。不过,计算复杂度和动态系统处理仍是难点。
传统方法依赖药效团模型和形状相似性(如ROCS),而AI方法通过变分自编码器(VAE)和扩散模型实现突破。DiffHopp利用E(3)-等变扩散模型生成蛋白口袋内的新颖骨架,在PDBBind数据集上QED和Vina评分提升30%。如图4所示,扩散模型通过概率分布引导骨架生成,兼顾多样性与生物活性保留。

数据质量依赖和合成可行性(SA)仍是瓶颈。联邦学习与知识蒸馏结合可缓解数据稀缺,而GeminiMol等模型通过构象空间相似性度量,为平衡创新性与可合成性提供新思路。多模态融合(如ImageMol结合化学图像与SMILES)或将成为下一代分子表征的核心突破点。
生物通微信公众号
知名企业招聘