用于预测脲酶抑制活性的虚拟筛选方法的比较数据分析
《ACS Omega》:Comparative Data Analysis of Virtual Screening Methodologies for Predicting Urease Inhibitory Activity
【字体:
大
中
小
】
时间:2025年10月21日
来源:ACS Omega 4.3
编辑推荐:
结构虚拟筛选(SBVS)方法学评估:研究采用MM-GBSA、集合对接(ED)等五种方法,结合四种尿素酶晶体结构(6ZJA、6QSU、1E9Y、1E9Z),系统评估数据融合(最小值、中位数、算术/几何/调和平均、欧氏平均)和姿势聚合(1-100个构象)对IC50/pIC50预测及分子排序的影响。结果表明ED和MM-GBSA在Spearman/Pearson相关性上最优,但MM-GBSA绝对能量误差较大;最小值数据融合随姿势数增加性能更稳定;pIC50相关性显著优于IC50。该分析为优化SBVS工作流程提供了参数组合指导,适用于其他酶靶点。
虚拟筛选(Virtual Screening, VS)是药物研发中一项关键技术,其核心目标是高效地从庞大的化合物库中识别具有潜在生物活性的分子。随着计算化学和分子建模技术的不断进步,多种方法已被开发并应用于VS流程,以提升预测准确性。然而,这些方法在实际应用中表现各异,且受到多种因素的影响,如评分函数的选择、数据融合策略以及配体结合构象的多样性。因此,对这些方法的系统评估和优化对于提高VS的可靠性至关重要。本文围绕这一目标,探讨了结构基虚拟筛选(Structure-Based Virtual Screening, SBVS)中几种主流方法在抑制尿素酶(urease)中的预测性能,并分析了不同数据融合策略和配体结合构象数量对分子排名的影响。
尿素酶是一种金属酶,能够催化尿素水解生成碳酸和氨。在农业和人类健康领域,尿素酶的活性均带来一定的挑战。例如,在农业中,尿素酶会促进肥料和动物粪便中氮的流失,造成环境污染和作物效率下降;而在医学上,尿素酶是幽门螺杆菌(Helicobacter pylori, Hp)等病原体的关键毒力因子,有助于其在胃酸环境中存活,并与胃部疾病如胃溃疡和胃癌密切相关。因此,开发针对尿素酶的抑制剂具有重要的应用价值。尿素酶的结构和功能特征使其成为药物发现中评估计算方法的理想模型。其活性位点中高度保守的双核镍离子(Ni2?)中心,以及其与水分子和碳酰化赖氨酸的配位,为计算方法的测试提供了坚实的基础。此外,尿素酶的高分辨率晶体结构也为SBVS研究提供了重要的数据支持。
本文采用五种不同的协议变体,包括分子对接、诱导契合对接(Induced-Fit Docking, IFD)、量子极化配体对接(Quantum-Polarized Ligand Docking, QPLD)、集合对接(Ensemble Docking, ED)以及分子力学/广义Born表面面积(Molecular Mechanics/Generalized Born Surface Area, MM-GBSA)方法,结合四种不同的尿素酶晶体结构(PDB ID:6ZJA、6QSU、1E9Y和1E9Z),系统评估这些方法在预测结合亲和力方面的性能。评估方法包括统计相关性指标(如Spearman和Pearson相关系数)和基于误差的评估(如平均绝对误差、均方根误差和内点比例)。此外,还分析了六种数据融合技术(最小值、中位数、算术平均、几何平均、调和平均和欧几里得平均)以及不同数量的对接构象(从1到100个)对配体排名准确性的影响。
研究结果显示,MM-GBSA和ED在配体排名方面表现最佳,但MM-GBSA在绝对结合能预测上误差较高。随着对接构象数量的增加,大多数数据融合方法的预测性能下降,但最小值融合方法在所有情况下都保持了较高的稳定性。这表明,选择最低能量构象可能有助于减少噪声,提高预测的准确性。同时,IC50与pIC50作为实验参考值的比较表明,pIC50在Pearson相关性方面表现更优,强化了其在亲和力预测中的适用性,而两者在Spearman排名中的表现相近。这些发现为优化SBVS工作流程提供了新的思路,即在选择评分函数和构象聚合策略时,需综合考虑方法的预测能力与实验数据的相关性。
在分子对接过程中,配体的结合构象和评分函数的选择对预测结果有显著影响。标准对接(Standard Docking)是一种广泛应用的方法,其主要优势在于计算效率高,但容易产生假阳性结果,因为难以准确模拟配体与受体之间的相互作用。诱导契合对接(IFD)则通过允许受体侧链的构象变化,提高了对接预测的准确性,尤其适用于结合位点具有高度柔性的靶标。量子极化配体对接(QPLD)通过引入量子力学计算,优化了配体电荷分布,从而提高了相互作用的预测精度。集合对接(ED)则考虑了受体的多种构象,以更全面地反映结合位点的动态特性,而MM-GBSA作为终点方法,通过分解结合自由能为热力学和熵变项,提供了更精确的结合能预测。
在数据融合策略方面,本文对六种常见的融合方法进行了系统分析。结果显示,随着对接构象数量的增加,大多数方法的预测性能下降,而最小值融合方法在所有情况下都保持了较高的稳定性。这一现象表明,选择最低能量构象可能更有效地保留结合位点的真实信息,减少因构象多样性引入的噪声。此外,不同的数据融合方法在不同靶标中的表现也存在差异。例如,在1E9Z这一结构中,最小值融合方法表现出更强的预测能力,而其他方法则因结合位点的结构特性导致预测性能受限。这表明,某些靶标可能更适合特定的数据融合策略,而另一些则可能需要更精细的调整。
实验参考值的选取对预测性能的评估具有重要意义。本文通过比较IC50和pIC50的预测结果,发现pIC50在Pearson相关性方面表现更优,这可能与其对数值分布的平滑处理有关。然而,在Spearman排名方面,两者的表现相近,说明在某些情况下,IC50和pIC50均可作为有效的参考值。因此,在选择实验参考值时,需根据具体的应用场景和预测目标进行权衡。如果追求绝对亲和力的精确预测,pIC50可能是更优的选择;但如果主要关注分子的相对排名,则两种方法均可接受。
本文还探讨了不同能量项在预测性能中的作用。例如,MM-GBSA中的库仑能(Coulombic energy)在所有四种靶标中均表现出较强的预测能力,而溶剂化能(Solv_GB)和疏水相互作用(Lipo)则在不同靶标中表现差异较大。这表明,某些能量项可能在特定靶标中更具预测价值,而其他能量项则可能在整体上表现一般。因此,在设计SBVS工作流程时,应结合具体的靶标特性,选择最相关的能量项作为评分依据。
此外,本文分析了不同协议变体对预测性能的影响。结果表明,变体3和变体4在所有靶标中均表现出较高的相关性,尤其是变体4,其结合了集合对接和MM-GBSA评分方法,展现出更强的预测能力。然而,变体5(结合了ED和QPLD)的表现相对较弱,可能与其方法的组合特性有关。变体2(诱导契合对接)在某些靶标中表现良好,但在整体上不如变体3和变体4。这说明,虽然诱导契合对接在特定情况下具有优势,但其在广泛靶标中的适用性仍有待进一步验证。
为了进一步提升SBVS的预测性能,本文还提出了几种可能的优化方向。例如,采用自适应评分框架,根据不同的靶标和配体特性动态调整评分参数,有助于提高预测的灵活性和准确性。此外,引入机器学习方法,通过训练模型来识别最优的数据融合策略和构象选择,也是一种值得探索的方向。这些方法可以有效减少计算成本,同时提高预测的可靠性。
本文的研究还揭示了一些值得注意的局限性。首先,某些尿素酶结构(如1E9Z)的结合位点较为封闭,这可能影响预测结果的多样性,并导致相关性指标的异常升高。因此,在评估方法的性能时,应谨慎考虑这些结构的特殊性,避免将其作为普遍适用的参考。其次,某些计算方法(如MM-GBSA和IFD)在大规模虚拟筛选中的计算成本较高,限制了其在实际应用中的可行性。最后,由于缺乏实验数据支持,本文未对所有配体与金属离子的结合情况进行筛选,这可能影响对某些非典型结合机制的识别。
综上所述,本文通过系统评估SBVS方法、数据融合策略和评分函数,为尿素酶抑制剂的虚拟筛选提供了新的见解。研究发现,MM-GBSA和ED在配体排名方面表现最佳,但需注意其在绝对亲和力预测中的误差。同时,数据融合方法的选择和对接构象数量的控制对预测性能具有重要影响,其中最小值融合方法在多数情况下表现稳健。此外,pIC50作为实验参考值,在某些指标上优于IC50,尤其是在需要高精度的亲和力预测时。这些发现不仅有助于优化尿素酶相关药物筛选流程,也为其他靶标的虚拟筛选提供了有价值的参考。
尽管本文取得了一些重要的研究成果,但仍存在一些局限性。例如,某些靶标结构的特殊性可能影响预测的普遍适用性,而部分计算方法的高成本也限制了其在大规模筛选中的应用。未来的研究可以进一步探索自适应评分框架和机器学习技术,以提高预测的灵活性和效率。此外,对于尿素酶抑制剂的结合机制,仍需更多的实验验证,以确认计算方法的预测结果是否与实际的分子相互作用一致。本文所提出的方法和策略为药物发现领域提供了重要的理论支持和实践指导,为后续研究奠定了坚实的基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号