templ:一种基于模板的蛋白质-配体构象预测方法基线
《Journal of Chemical Information and Modeling》:TEMPL: A Template-Based Protein–Ligand Pose Prediction Baseline
【字体:
大
中
小
】
时间:2025年10月24日
来源:Journal of Chemical Information and Modeling 5.3
编辑推荐:
配体构象预测基准方法研究,提出基于最大公共子结构(MCS)和约束3D嵌入的 Templ 方法,通过比对参考结构进行三维对齐排序。在Polaris竞赛中,优于传统方法如GLIDE和Vina,但对高难度PoseBusters数据集表现有限。方法提供开源代码和网页应用,验证了数据泄露风险及挑战性任务的性能瓶颈。
在结构导向药物设计中,预测配体在蛋白质结合位点的构象和绝对位置(即配体的结合姿态)一直是一个核心难题。尽管数据泄露和泛化能力的担忧仍然存在,但基于数据驱动的方法(如深度学习和扩散模型)如今已常规性地优于传统的配体对接方法。本文提出了一种基于最大公共子结构(MCS)和受限三维嵌入的简单数据驱动配体基基准方法,该方法以参考分子的MCS为模板,用于预测新的配体在目标蛋白质上的结合姿态。由于该基准方法完全依赖数据驱动,因此对于插值任务具有特别重要的意义,而物理驱动方法在插值任务中可能表现不佳,因为它们在利用数据方面不够直接。然而,该基准方法也能揭示其他插值型数据驱动方法相较于简单方法所具有的额外优势。
在实际应用中,该基准方法被用于“Polaris抗病毒竞赛”的配体姿态预测任务,取得了显著成果。竞赛要求预测约200个与SARS-CoV-2和MERS-CoV主蛋白酶(MPro)结合的配体结构。由于这些真实配体结构仅在竞赛结束后才公布,因此可以认为这是一个诚实的基准挑战。在该挑战中,基于MCS的配体姿态预测方法优于其他方法,尤其是传统的配体对接方法,如FRED、GLIDE和Vina,确认了该方法在插值任务中的有效性。此外,该方法在PDBBind基准数据集上也表现出相对良好的性能,这有助于揭示其他数据驱动方法在数据泄露和挑战性分割方面的风险,强调了对更严格数据分割的必要性。然而,该方法在更具挑战性的基准数据集如PoseBusters上的表现则较为有限,表明其在处理新颖蛋白质和配体时的泛化能力较弱。
本文的基准方法不仅是一个数据驱动的工具,还提供了一个开源软件包,方便用户使用。为了进一步降低技术门槛,还开发了一个基于Streamlit的网络应用,允许用户在不进行本地安装和无需熟悉命令行软件的情况下尝试该方法的流程。网络应用的实例可访问https://templ.dyn.cloud.e-infra.cz/,并附有使用指南。通过这一工具,用户可以轻松地运行基准方法,从而在不同的数据驱动方法之间进行比较和评估。
在方法部分,TEMPL的核心方法全部基于RDKit这一化学信息学库。该方法首先检测输入配体与参考配体之间的最大公共子结构(MCS),然后通过受限三维嵌入生成配体构象,并使用三维对齐方法对这些构象进行排名。受限三维嵌入过程利用ETKDGv3方法,这是一种常用的构象生成方法,基于知识增强的距离几何。生成的构象可以进一步使用MMFF94s或UFF力场进行优化,但这种优化过程可能会削弱之前锁定的坐标约束。三维对齐过程则使用RDKit的Align3D方法,该方法基于高斯体积近似,能够快速计算分子形状的重叠程度。重叠程度通过ShapeTanimoto和ColorTanimoto指标进行量化,其中ColorTanimoto还考虑了分子的特征标签,如氢键供体、氢键受体、带电、疏水和环状特征。此外,还有一种 ComboTanimoto 指标,即 ShapeTanimoto 和 ColorTanimoto 的平均值。
在数据处理方面,TEMPL 的数据来源包括Polaris竞赛提供的参考数据和PDBBind数据集。Polaris竞赛的数据集包含约800个与SARS-CoV-2主蛋白酶相关的蛋白质-配体复合物。对于PDBBind数据集,其包含18,902个独特的蛋白质-配体复合物结构,经过预处理后数据量有所减少。该数据集采用时间分割方法,即将数据集分为训练集和测试集,基于特定日期(2019年1月1日)的截止点。由于这种分割方法可能导致训练集和测试集之间的相似性,使得配体姿态预测任务变得相对简单,因此我们的基准方法在处理这种数据集时表现出较高的成功率,这与传统方法如GLIDE和EquiBind的性能相比较,显示出其在插值任务中的潜力。
在结果部分,TEMPL在Polaris竞赛中取得了较高的配体姿态预测成功率,其中在测试集上的RMSD小于2 ?的成功率为22.1%,这一成绩与传统方法如AutoDock Vina和深度学习方法如DiffDock、EquiBind等相比较,显示出其在特定数据集上的有效性。此外,在PDBBind数据集上的表现也较为良好,验证了其在处理训练集和测试集相似性较高的情况下的性能优势。然而,在更具挑战性的PoseBusters数据集上,TEMPL的表现则较为有限,表明其在处理新颖蛋白质和配体时的泛化能力较弱。在PoseBusters任务中,使用TEMPL生成的配体姿态中有66.7%未通过有效性检查,这表明该方法在处理实际物理约束方面仍存在一定的局限性。
在讨论部分,本文分析了TEMPL方法在不同数据集上的表现,并探讨了其在插值任务中的有效性。通过比较Polaris竞赛和PDBBind数据集的结果,发现TEMPL方法在处理相似性较高的蛋白质-配体复合物时表现出较高的成功率,而在处理新颖蛋白质和配体时则性能显著下降。这一现象表明,数据驱动方法在插值任务中依赖于参考数据的相似性,因此需要严格的挑战性数据分割以确保其泛化能力。此外,本文还指出,TEMPL方法在处理PoseBusters任务时,尽管未达到深度学习方法的最优表现,但其有效性检查通过率高于其他深度学习方法,显示出其在某些情况下的优势。
本文提出的TEMPL方法不仅是一个数据驱动的基准工具,还为未来配体姿态预测方法的评估提供了参考。在处理相似性较高的数据时,TEMPL方法能够取得较高的成功率,但在处理新颖数据时则表现较差。因此,本文建议将TEMPL方法作为先进数据驱动方法的最低基准,特别是在可以利用高度相似的蛋白质或配体信息的情况下。通过这一方法,研究人员可以更好地评估其他数据驱动方法的性能,特别是在处理挑战性任务时的表现。此外,TEMPL方法的开源性质和网络应用的可用性,使得其在实际应用中具有较高的可访问性和可操作性,为药物设计和发现提供了重要的工具支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号