
-
生物通官微
陪你抓住生命科技
跳动的脉搏
超越排行榜:利用预测建模揭示蛋白质-配体相互作用的深层机制与药物发现新策略
【字体: 大 中 小 】 时间:2025年08月08日 来源:Bioinformatics 5.4
编辑推荐:
本研究针对传统蛋白质语言模型(PLMs)忽视配体诱导的构象变化这一关键问题,开发了首个整合配体化学信息的通用蛋白质语言模型ProtLigand。通过交叉注意力机制融合序列、AlphaFold2预测结构与配体SMILES字符串,在人类蛋白质相互作用(HumanPPI)、热稳定性预测等6项任务中显著超越SaProt等基准模型(准确率提升3.33%,Spearman's ρ提高0.021)。该模型不仅能生成潜在配体结构(如图1所示功能基团匹配案例),更通过性能提升模式揭示了血红素依赖酶等生物机制,为靶点发现和药物重定位提供新范式。
在生命科学的微观世界里,蛋白质与配体的相互作用如同精密的分子舞蹈,决定着从代谢调控到药物响应的关键生物学过程。然而,当前主导结构生物信息学的蛋白质语言模型(Protein Language Models, PLMs)存在显著盲区——它们仅关注氨基酸序列或AlphaFold2预测的三维结构,却忽略了配体结合引发的构象与功能变化。这种缺失导致模型无法区分序列相似度超过80%却结合不同代谢物的旁系同源蛋白,也难以解释为何相同折叠在不同生物体中呈现稳定性差异。
针对这一瓶颈,以色列理工学院(Technion-Israel Institute of Technology)的Dan Kalifa团队开发了革命性的ProtLigand模型。这项发表于《Bioinformatics》的研究通过三重创新突破:首创配体感知的蛋白质表示学习方法,构建能逆向生成配体的轻量级模块,并建立从预测优势到生物学假说的解释路径。研究显示,整合配体信息使模型在人类蛋白质相互作用分类任务中准确率提升至90.00%(较SaProt提高3.33%),热稳定性预测Spearman's ρ达0.731,更成功识别出传统模型误判的ATG7-ATG10自噬体组装关键相互作用。
关键技术方法包括:1) 基于PDBbind v.2020构建17,393个蛋白质-配体对训练集,采用GraphPart算法进行同源序列聚类分割;2) 以SaProt 650M AF2版本为基座,通过交叉注意力机制融合ChemBERTa编码的配体SMILES特征;3) 开发独立训练的配体生成器,将蛋白质表示解码为候选配体SMILES字符串(如图1功能基团匹配示例)。
【Benchmarks Results】
在六项基准测试中,ProtLigand全面超越现有技术:对血红素加氧酶-2(P30519)等辅因子依赖蛋白的分类置信度达0.97(SaProt仅0.71);正确否决核蛋白CBX4与生殖细胞蛋白BOLL的虚假相互作用(置信度0.04 vs SaProt错误0.90);在热稳定性预测中,对脂质结合蛋白PLIN2的预测相关性ρ≈0.85,显著优于仅依赖结构的基线(ρ≈0.50)。
【Lens on Biological Insights】
性能提升揭示三类关键生物学现象:1) 血红素调节蛋白如p38γ激酶(O43924),其配体介导的磷酸化级联被准确捕获(置信度0.96 vs 0.46);2) 动态相互作用蛋白如自噬相关ATG7(O95352)-ATG10(Q9H0Y0)复合体,模型通过配体信号识别构象匹配性;3) 代谢耦合系统如ATP合成酶与碳酸酐酶CA12(O43570)的功能关联(置信度0.91 vs 0.35)。
【Generating Testable Hypotheses】
研究示范了如何将预测优势转化为可验证假说:针对PLIN2(Q99541)的C端脂质结合口袋(图3),提出"脂质配体通过稳定两亲性区域增强热稳定性"的假说,并设计差示扫描荧光(DSF)和限制性蛋白酶解实验方案验证,为模型驱动的生物学发现建立范式。
这项研究标志着蛋白质建模从静态结构向生化环境感知的重要转变。通过将配体化学直接嵌入蛋白质表示学习,ProtLigand不仅刷新多项基准记录,更开辟了通过机器学习优势反推生物机制的新研究路径。尽管存在对AlphaFold2闭合构象偏好(仅影响6.2%多构象蛋白)等局限,其生成的候选配体已展示匹配真实结合物的功能基团(图1),为探索"不可成药"靶点提供全新工具。未来,该框架有望通过扩展配体化学空间覆盖和整合AFsample2等构象采样技术,进一步推动从蛋白质序列到药物设计的端到端发现。
生物通微信公众号
知名企业招聘