基于Transformer架构的Ligand-Transformer模型:突破蛋白质-小分子相互作用预测的序列驱动新范式

【字体: 时间:2025年07月29日 来源:Nature Communications 14.7

编辑推荐:

  本研究针对传统高通量实验筛选成本高、效率低的问题,开发了基于Transformer架构的深度学习模型Ligand-Transformer。该模型通过输入蛋白质氨基酸序列和小分子拓扑结构,可同时预测结合亲和力(pKd)和复合物构象空间,成功应用于EGFRLTC突变体抑制剂筛选(命中率58%,纳摩尔级活性)和ABL激酶构象种群偏移预测,为早期药物设计提供了高效计算工具。

  

在药物研发领域,蛋白质与小分子的相互作用机制研究一直是核心挑战。传统高通量筛选方法不仅耗费数百万美元成本,且存在大量假阳性结果。尤其对于EGFRL858R/T790M/C797S(LTC)这类导致癌症耐药的三重突变体,现有抑制剂普遍失效。更棘手的是,激酶蛋白如ABL存在动态构象变化(如DFG-in/out状态),传统结构预测方法难以捕捉配体结合后的构象重排。这些瓶颈严重制约了靶向药物的开发效率。

英国剑桥大学的研究团队在《Nature Communications》发表的研究中,创新性地将AlphaFold2的蛋白质序列编码能力与GraphMVP的小分子几何学习框架相结合,构建了Ligand-Transformer模型。该模型通过12层交叉注意力网络处理异构图数据,实现了从序列直接预测复合物构象与亲和力。关键技术包括:(1)基于PDBbind2020数据集(13,420个复合物)的迁移学习;(2)利用AlphaFold2中间层输出获取蛋白质多尺度特征;(3)通过GraphMVP的3D几何预训练增强小分子表征;(4)距离矩阵约束的构象种群重加权算法。

性能验证与基线对比
在PDBbind2020测试集上,模型预测结合亲和力的Pearson相关系数达0.88,显著优于HAC-Net等基线方法。距离预测精度方面,95%的残基-配体原子距离误差小于2?,为构象分析奠定基础。

EGFRLTC抑制剂发现
通过筛选TargetMol库(5,600个化合物),模型成功鉴定出7个活性化合物,其中C10(IC50=1.2 nM)和C1(IC50=5.5 nM)展现强效抑制。值得注意的是,模型通过E762-G857距离预测(<5.3?为aC-helix-in状态)准确区分了变构与正构抑制剂,实验验证了新型萘啶衍生物C1的ATP竞争机制。

ABL激酶构象调控解析
针对ABL的A/I1/I2三态系统,模型通过重加权60个NMR结构(PDB 6XR6/7/G),准确预测了11种抑制剂诱导的构象偏好。例如结合达沙替尼时,V308-F401距离扩展至14?(DFG-out态),与实验观测的I2态占比82%高度吻合。

这项研究开创了序列驱动药物设计的新范式。相比传统分子对接(如Vina-GPU),Ligand-Transformer速度提升两个数量级,且能捕捉构象动态变化。其突破性在于:(1)摆脱对实验结构的依赖,仅需序列与配体SMILES即可预测复合物性质;(2)通过距离矩阵量化构象种群偏移,为变构调节剂设计提供新工具;(3)成功应用于难成药靶点(如EGFRLTC)的抑制剂发现。该技术有望重塑早期药物筛选流程,为攻克耐药突变和动态靶点提供新思路。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号