SuperWater:基于生成式AI的蛋白质水分子定位预测框架

《Communications Chemistry》:Superwater as a generative AI framework to predict water molecule positions on protein structures

【字体: 时间:2025年12月20日 来源:Communications Chemistry 6.2

编辑推荐:

  水分子在维持蛋白质结构稳定性和介导分子相互作用中扮演着关键角色,但精确预测其位置仍具挑战性。为解决此问题,研究人员开发了名为SuperWater的生成式AI框架,该框架结合了基于分数的扩散模型和等变图神经网络。研究结果表明,SuperWater在预测精度、覆盖率和空间准确性方面均超越了现有方法,其预测的水分子位置与实验验证位置的偏差仅为0.3±0.06 ?。该研究为结构生物学、结合位点预测及水介导药物设计提供了强大工具。

  
水是生命之源,绝大多数生物过程都发生在水环境中。水分子不仅像“胶水”一样维持着蛋白质的三维结构,还在蛋白质-蛋白质、蛋白质-配体相互作用中扮演着“中间人”的角色,有时稳定结合,有时又竞争结合位点。在药物设计中,忽略水分子常常导致药物研发失败。因此,精确预测水分子在蛋白质表面的位置,对于理解生命过程、进行蛋白质工程和药物发现至关重要。
然而,给蛋白质“拍照”的实验方法,如X射线晶体学,往往难以捕捉到所有水分子,尤其是那些动态变化的“桥接水”。传统的计算方法,如分子动力学模拟,虽然能提供动态信息,但计算成本高昂,难以应用于大型蛋白质复合物。近年来,基于深度学习的方法,如3D卷积神经网络(CNN),虽然速度快,但为了达到亚埃级的精度,需要极细的网格划分,导致计算成本飙升,且对输入结构的旋转方向敏感,需要复杂的旋转增强来弥补。
为了克服这些挑战,来自范德堡大学和武田制药的研究团队在《Communications Chemistry》上发表了一项研究,提出了一个名为SuperWater的生成式AI框架。该框架巧妙地将基于分数的扩散模型与等变图神经网络相结合,能够高精度地预测蛋白质结构周围的水分子位置,其性能全面超越了现有方法。
关键技术方法
研究团队首先从蛋白质数据库(PDB)中收集了17,092个高分辨率蛋白质结构,构建了包含单蛋白、蛋白-蛋白及蛋白-配体复合物的数据集。核心方法SuperWater包含三个主要步骤:首先,利用基于分数的扩散模型,从随机分布中生成候选水分子位置;其次,通过一个基于SE(3)-等变图神经网络的置信度模型,对候选位置进行评分和过滤;最后,采用聚类算法对预测位置进行优化,得到最终的水分子坐标。模型性能通过与HydraProt和GalaxyWater-CNN等先进方法进行比较来评估。
研究结果
1. 与HydraProt和GalaxyWater-CNN的比较
研究团队在一个包含1709个蛋白质晶体结构的独立测试集上,将SuperWater与当前最先进的HydraProt和GalaxyWater-CNN方法进行了全面比较。结果显示,在1.0 ?和0.5 ?的匹配半径下,SuperWater的精度-覆盖率曲线均位于最上方,表明其在广泛的覆盖率范围内均优于其他方法。例如,在1.0 ?截断值下,当覆盖率固定为50%时,SuperWater的精度仍能维持在70%以上,而HydraProt和GalaxyWater-CNN则分别降至60%和55%以下。此外,在55%至83%的精度范围内,SuperWater预测水分子位置与实验位置之间的均方根偏差(RMSD)最低,表明其空间定位最为准确。在置信度阈值(cap)为0.5时,SuperWater的平均绝对偏差(MAD)仅为0.3±0.06 ?,证明了其预测的稳健性。
2. 结合界面水分子预测
为了评估模型在识别稳定结合界面的“桥接水”方面的能力,研究团队分别在蛋白-蛋白和蛋白-配体复合物上进行了测试。在蛋白-蛋白基准测试中,SuperWater在70%的精度下仍能检索到近47%的真实桥接水,而其他方法则表现不佳。在蛋白-配体基准测试中,当覆盖率固定为25%时,SuperWater的精度高达95%,分别比HydraProt和GalaxyWater-CNN高出约8个和15个百分点。这些结果表明,SuperWater在预测结合界面水分子方面具有显著优势。
3. 案例研究
为了展示SuperWater的生物学相关性,研究团队进行了三个案例研究。在碳酸酐酶II(PDB ID: 6OUH)的蛋白表面水化研究中,SuperWater预测的水分子与实验观察到的位置高度吻合,且假阳性预测较少,而HydraProt的预测则较为分散。在PHIP蛋白(PDB ID: 7FVP)的配体结合口袋中,SuperWater成功预测了所有三个关键的桥接水分子,而HydraProt漏掉了其中一个。在NDM1-美罗培南复合物(PDB ID: 4EY2)的蛋白-蛋白相互作用界面,实验结构揭示了12个桥接水分子,SuperWater成功预测了其中11个,而HydraProt仅预测了8个。
研究结论与意义
本研究提出的SuperWater框架,通过整合基于分数的扩散模型和等变图神经网络,在预测蛋白质结构周围水分子位置方面取得了突破性进展。该模型在精度、覆盖率和空间准确性方面均超越了现有方法,能够准确捕捉蛋白表面、蛋白-配体结合位点以及蛋白-蛋白相互作用界面中的关键水分子。这些可靠的预测对于理解水介导的生物学过程、蛋白质稳定性以及药物发现中的先导物优化至关重要。尽管SuperWater目前仅预测水分子位置,但其框架可轻松适应其他应用,如金属结合位点预测、多体对接以及水介导药物设计,为结构生物学和计算药物发现领域提供了强大的新工具。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号