深度学习驱动的全柔性蛋白质-配体相互作用预测:突破刚性对接局限的药物发现新范式

【字体: 时间:2025年09月04日 来源:Briefings in Bioinformatics 7.7

编辑推荐:

  传统分子对接方法因计算限制常牺牲精度换取速度,且难以处理蛋白质柔性。John Lee团队系统综述了深度学习(DL)在分子对接领域的革命性进展,重点探讨了扩散模型(DiffDock)和等变图神经网络(EGNN)如何实现全柔性蛋白-配体相互作用预测,解决了诱导契合效应建模难题。研究显示FlexPose等新型模型在PDBBind基准测试中成功率提升至64.8%,为基于结构的虚拟筛选(VS)提供了更可靠的计算工具。

  

在药物研发这场耗时12-15年、耗资超10亿美元的马拉松中,分子对接技术犹如缩短赛程的加速器。这项始于1980年代的计算技术,通过预测蛋白质与配体的结合构象和亲和力,已成为基于结构虚拟筛选(VS)的核心工具。然而传统"搜索-评分"算法面临双重困境:为保持计算效率将蛋白质视为刚性结构,却忽视了生物分子真实的动态特性;而考虑柔性的方法又因构象空间维度爆炸难以实用。这种"鱼与熊掌不可兼得"的困境,在AlphaFold2引发结构生物学革命后显得尤为突出——当蛋白质结构预测已实现突破,分子对接技术能否跟上步伐?

深度学习(DL)的介入为这一领域带来转机。早期模型如EquiBind采用等变图神经网络(EGNN)识别配体和蛋白质的"关键点",通过Kabsch算法优化空间匹配;TankBind则通过三角函数感知的GNN预测距离矩阵。但这些先驱存在明显缺陷:预测结构常违反物理规律,且未能超越经典方法。转折出现在DiffDock引入扩散模型——这种受热力学启发的生成式方法,通过逐步去噪的逆向过程预测结合构象,在PDBBind测试集上以更低计算成本达到最优精度。然而2023年的PoseBusters基准测试揭露了DL模型的阿喀琉斯之踵:50%预测存在立体化学错误或空间冲突,且对训练集外目标泛化能力欠佳。

研究团队系统梳理了应对这些挑战的创新路径。在架构层面,等变性(equivariance)成为关键设计原则——确保模型输出随输入分子的旋转平移而相应变换。扩散模型通过随机微分方程(SDE)框架,将配体自由度(平移、旋转、扭转角)的噪声逐步去除,其核心是学习去噪评分函数的SE(3)-EGNN。针对蛋白质柔性,新兴方法分为两类:柔性对接(flexible docking)模拟从apo(未结合)到holo(结合)状态的构象转变;共折叠(co-folding)则直接从序列联合预测复合物结构。FlexPose通过端到端EGNN同时优化蛋白质和配体坐标;SurfDock创新性地采用表面指纹表征,结合ESM-2语言模型增强结合位点识别。

关键技术方法包括:1)基于PDBBind数据集训练扩散模型,通过渐进加噪-去噪过程学习结合构象分布;2)等变图神经网络处理三维分子图数据,节点包含原子类型/坐标等特征;3)表面表征方法(MaSIF)将蛋白质表面分解为几何 patches;4)流匹配(flow matching)技术建模apo-holo状态间的连续转变;5)多模态基础模型(如AlphaFold3)整合序列、距离图和空间特征。

【蛋白质柔性建模突破】

柔性对接方法通过两种策略突破刚性假设:隐式柔性模型如FLEXVDW通过原子点云卷积估算范德华相互作用,避免显式构象采样;显式柔性模型如DiffDock-Pocket则直接调整结合口袋侧链二面角,对ESMFold预测结构的成功率提升至41.7%。CarsiDock-Flex通过CarsiInduce模块将预测蛋白结构向holo状态优化,使结合口袋准确率(RMSD≤2?)从71.97%提升至80.81%。

【扩散模型的革新应用】

扩散模型在柔性对接中展现独特优势:DiffBindFR通过联合去噪配体运动和口袋侧链扭转,实现51.2%的对接成功率;FlexiDock采用非平衡流匹配(UFM)放松边际约束,使全原子RMSD<1?的预测比例提升至44.1%。Re-Dock创新性地将扩散桥过程与化学约束结合,增强诱导拟合效应的物理真实性。

【共折叠范式崛起】

序列到结构的共折叠模型开辟新途径:UMOL扩展AlphaFold2架构,通过48个EvoFormer块联合处理蛋白质多序列比对(MSA)和配体SMILES特征;AlphaFold3引入扩散式结构模块,在PoseBusters基准上实现80%成功率(RMSD<2?)。开源的Boltz-1模型通过Kabsch对齐等优化,达到与私有模型相当的Co-LDDT 0.849。

【局限性反思】

研究同时指出当前DL模型的三大软肋:1)物理约束不足,AF3在关键残基突变后仍预测相似配体pose;2)对多链受体和罕见蛋白家族泛化能力弱;3)在真实生物环境(如溶剂、金属离子存在时)性能未经验证。Masters等(2024)发现DL模型更依赖统计模式而非物理原理,导致高置信度错误预测。

这项发表于《Briefings in Bioinformatics》的综述阐明,深度学习已使分子对接从"刚性近似"步入"全柔性预测"时代。FlexPose和DiffDock-Pocket等模型证明,通过等变架构与生成式方法的融合,可同时实现计算效率与物理精度。特别是扩散模型展现的构象空间探索能力,为模拟蛋白质动态性提供新范式。共折叠模型虽在通才性上占优,但其"黑箱"特性仍是药物设计的隐患。未来方向包括:1)融合分子动力学模拟数据增强物理合理性;2)开发专门化"专家模型"处理特定蛋白家族;3)建立包含多链、辅因子等复杂场景的基准测试。这些进展将决定计算预测能否真正替代实验筛选,为"十亿美元分子"的发现降本增效。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号