
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于自然语言处理技术的分子片段上下文依赖性相似性搜索方法研究及其在药物发现中的应用
【字体: 大 中 小 】 时间:2025年05月27日 来源:Journal of Cheminformatics 7.1
编辑推荐:
本研究针对小分子片段相似性计算中传统描述符特征稀疏性导致的局限性问题,创新性地将自然语言处理中的词向量嵌入(Word2vec)技术应用于分子片段相似性评估,开发了基于上下文依赖性的片段相似性搜索方法。通过构建嵌入片段向量(EFV)和加权EFV(wEFV)模型,在113,113个活性类似物系列(AS)中验证了该方法能有效识别具有功能相关性的远程相似关系,显著提升了传统描述符(CFR/MQN/Morgan)的搜索性能,为药物化学中的片段优化和生物电子等排体替换提供了新策略。
在药物发现领域,分子相似性评估是计算机辅助药物设计的核心工具。传统基于指纹描述符(如Morgan指纹)或数值描述符(如分子量子数MQN)的相似性计算方法,对于完整分子已建立成熟体系,但当面对小分子片段或取代基时却面临严峻挑战——这些片段通常只包含少量原子,导致分子描述符特征分布稀疏,难以建立有意义的相似性关系。这种局限性严重制约了基于片段的药物设计(FBDD)和活性类似物系列(AS)优化中的结构-活性关系(SAR)分析。
日本Institute for Theoretical Medicine与德国波恩大学的研究团队另辟蹊径,从自然语言处理(NLP)领域获得灵感。正如单词的含义需要通过上下文语境来理解,分子片段的功能特性也应当在其所处的化学环境(如活性类似物系列中的位置)中评估。研究团队将Word2vec神经网络模型引入化学信息学,开发出上下文依赖性的片段相似性搜索方法,相关成果发表在《Journal of Cheminformatics》上。研究利用ChEMBL数据库中113,113个单取代位点的活性类似物系列(包含26,795个独特取代基),通过连续词袋模型(CBOW)生成100维嵌入片段向量(EFV),并创新性地设计了考虑取代基位置和活性的加权EFV(wEFV)查询策略。
关键技术方法包括:1)从ChEMBL 29中提取经匹配分子对(MMP)算法处理的活性类似物系列;2)采用RDKit计算常规片段表示(CFR)和分子量子数(MQN)作为基准方法;3)基于Gensim构建CBOW_W2V模型生成EFV;4)设计包含位置权重和pIC50值的wEFV计算公式;5)通过5次独立模型训练和1000个测试集的交叉验证评估性能。
研究结果部分,"Context-dependent similarity"表明:通过将取代基视为"单词"、活性类似物系列视为"句子",W2V模型能捕捉片段在优化路径中的共现模式。投影层生成的EFV将具有相似上下文角色的片段聚集在高维向量空间的邻近区域,这种表示方法超越了传统结构描述符的局限性。
"Similarity search queries"部分揭示:以S1-S4取代基EFV作为查询时,在25,751个片段的搜索空间中,S1查询能平均检出449个目标片段(位于前50位),显著优于CFR方法。图5展示的典型案例中,EFV成功识别出结构差异显著但具有相似SAR特性的片段,而这些片段在Morgan指纹相似性排序中位列12,600名之后。
"Embedded fragment vectors for similarity searching"通过引入局部上下文权重,使搜索性能进一步提升。wEFV采用sigmoid函数(斜率因子D=2-3)对邻近S0的取代基赋予更高权重时,前50位命中数可达500个(图6)。图7的AS实例显示,wEFV-D2查询能平衡全局与局部上下文信息,对含结构异质性的系列仍保持稳健性能。
这项研究的重要意义在于:首次将自然语言处理中的上下文建模思想系统应用于分子片段相似性搜索,建立了"全局语境"(所有训练AS)与"局部语境"(特定AS序列)的双重评估框架。Atsushi Yoshimori和Jürgen Bajorath发展的方法突破了传统描述符对片段特征的表征瓶颈,能发现结构远程但功能相关的相似关系,这对生物电子等排体识别、SAR转移分析等药物优化关键环节具有重要价值。该方法具有高度扩展性——通过设计不同的片段排序规则(如亲脂性、极性等),可构建面向特定性质的搜索语境,为精准药物设计提供新维度。
生物通微信公众号
知名企业招聘