基于Transformer化学语言模型的双靶点候选化合物特征结构解析及其在药物设计中的应用

【字体: 时间:2025年08月01日 来源:European Journal of Medicinal Chemistry Reports 4.1

编辑推荐:

  研究人员针对化学语言模型(CLM)生成候选化合物的机制难以解释的问题,开展了基于Transformer CLM的双靶点化合物(DT-CPDs)生成研究。通过机器学习与可解释人工智能(XAI)技术,揭示了CLM学习已知双靶点化合物特征亚结构并生成新型候选分子的机制,为理性化AI药物设计提供了新思路。

  

在人工智能驱动的药物发现领域,化学语言模型(Chemical Language Models, CLMs)已成为生成候选化合物的强大工具,但其"黑箱"特性使得预测结果难以从化学角度解释。尤其在设计具有多重药理活性的双靶点化合物(Dual-Target Compounds, DT-CPDs)时,研究人员往往无法理解模型如何将单靶点化合物(Single-Target Compounds, ST-CPDs)转化为具有双重活性的分子。这种解释性缺失严重制约了CLMs在药物设计中的可靠应用。

来自德国波恩大学LIMES研究所化学生物学与药物化学系(Department of Life Science Informatics and Data Science, B-IT, LIMES Program Unit Chemical Biology and Medicinal Chemistry)的Sanjana Srinivasan、Alec Lamens和Jürgen Bajorath团队在《European Journal of Medicinal Chemistry Reports》发表的研究,首次系统解析了Transformer CLMs生成DT-CPDs的结构基础。研究团队创新性地结合机器学习分类器与两种可解释人工智能(eXplainable AI, XAI)方法,揭示了CLMs通过识别并整合特征性亚结构来设计新型多靶点化合物的分子机制。

研究主要采用三种关键技术:1)基于Transformer架构的化学语言模型,使用T5编码器-解码器结构和自注意力机制学习ST-CPDs到DT-CPDs的映射关系;2)平衡随机森林(Balanced Random Forest, BRF)分类器,用于区分ST-CPDs和DT-CPDs的分子特征;3)SHAP(SHapley Additive exPlanations)和MolAnchor两种XAI方法,分别从原子贡献度和亚结构锚定角度解释模型预测。研究数据来源于ChEMBL数据库中经过严格筛选的120,195个高置信度化合物,涉及1,747个人类靶标蛋白。

3.1 化合物生成与Transformer学习
研究发现,Transformer CLM能够重现测试集中未见的DT-CPDs(最高达40%重现率),且训练集与测试集化合物的相似度(通过ECFP4指纹计算)显著影响生成效果。交叉微调实验表明,模型通过识别ST-CPDs与DT-CPDs间的结构相似性特征进行学习。

3.2 化学空间投影
t-SNE可视化显示,CLM生成的候选化合物(CLM-CPDs)在化学特征空间与已知DT-CPDs高度重叠,尤其对于HD6-JAK靶点对表现出明显分离,证实了模型捕捉靶点特异性结构特征的能力。

3.3 分类模型性能
BRF模型对HD6-JAK和ACE-MOB靶点对的DT-CPDs分类准确率分别达100%和83%,显著优于随机分类,证明DT-CPDs存在可区分的结构特征。

3.4 特征分析
SHAP分析揭示,DT-CPDs中特定ECFP4特征的存在对其正确分类贡献最大。例如,HD6-JAK对的DT-CPDs中,>90%的分子含有≥10个关键特征,而ST-CPDs中这一比例不足10%。

3.5 Transformer生成化合物的预测
71-88%的CLM-CPDs被BRF模型分类为DT-CPDs,表明其结构特征与已知多靶点化合物高度相似。

3.6 特征映射
原子级SHAP值可视化显示,DT-CPDs和CLM-CPDs中存在连贯的阳性贡献亚结构(如香豆素骨架),这些"热点区域"决定了模型的分类决策。

3.7 MolAnchor分析
该方法识别出决定分类的关键亚结构锚点:ACE-MOB对中54%的DT-CPDs含有作为锚点的香豆素亚结构;HD6-JAK对中则频繁出现嘧啶-羟基酰胺组合锚点。这些锚点在CLM-CPDs中保留率达36-57%,说明CLMs通过学习和重组这些特征亚结构进行分子设计。

这项研究首次系统揭示了Transformer CLMs在药物设计中的学习机制:模型通过识别DT-CPDs的特征性亚结构(如香豆素骨架、嘧啶环等),并在生成过程中对这些"药效团模块"进行多样化修饰,从而产生结构新颖且保持多靶点活性的候选化合物。这一发现不仅为理解AI药物设计提供了化学基础,更重要的是建立了连接黑箱模型与可解释药物设计的桥梁——通过SHAP和MolAnchor等XAI技术,研究人员现在能够直观识别CLM生成分子中的关键药效特征,极大提升了AI设计化合物的可信度和可优化性。该研究展示的方法学框架可推广至其他复杂药物设计任务,如多靶点选择性优化和药物重定位,标志着AI辅助药物发现从"经验性生成"迈向"理性设计"的重要一步。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号