一种用于基于昆虫P450酶进行酶-底物建模的计算机模拟(in silico)流程

《PET Clinics》:An in silico pipeline for enzyme-substrate modelling using arthropod P450s

【字体: 时间:2025年11月08日 来源:PET Clinics 2.3

编辑推荐:

  本研究开发了一套基于AI的三维蛋白建模与功能分析流程,通过整合AlphaFold3、ChimeraX、CaverWeb和AutoDock Vina等公开工具,成功构建了果蝇和昆虫P450酶(如CYP9Q3、CYP6CY3、CYP6CM1)的预测结构,并验证了其与实验数据的吻合性。流程包含结构生成、质量评估、配体传输分析及分子对接等步骤,揭示了P450酶的活性口袋、运输隧道及关键残基对配体结合的影响,为分子生态学研究和农药代谢机制提供了可重复的计算机辅助方案。

  人工智能生成的三维蛋白质模型在研究领域中得到了广泛应用,这些领域依赖于预测的蛋白质结构及其相互作用,例如人类医学中的药物开发。这些模型已经成为验证许多蛋白质功能的重要工具。尽管这对研究人类蛋白质组至关重要,但人工智能同样可以应用于那些在蛋白质数据库(PDB)中代表性不足的生物体的蛋白质研究。得益于基因测序技术的发展,节肢动物拥有大量蛋白质序列,但这些序列往往缺乏功能验证或实验结构。在线工具的丰富性使得计算机模拟的结构生物学变得更加便捷,但目前尚无专门的指南,帮助没有结构生物学背景的科学家有效利用这些工具。

本研究旨在为分子科学家提供一个实用的模型生成和解读流程,特别适用于那些没有深入结构生物学背景的研究者。我们设想该流程可以作为正在进行实验工作的辅助工具,提供计算机模拟的支持信息。研究重点在于单个蛋白质模型以及小分子-蛋白质相互作用,如酶-底物关系,这些是分子生态学和作物保护研究中的常见主题。具体案例涉及昆虫P450酶的建模,这些酶经常与异源物质耐受性和农药抗性相关。

本研究描述了一个详细的流程,该流程利用免费的在线工具和用户友好的界面,便于初学者使用。流程的目的是支持现有的实验数据,而不是进行高通量筛选。许多提及的软件和算法可以下载,以满足更深入的分析需求。流程的第一步是确定或生成合适的蛋白质模型,可以通过对现有PDB数据库的关键词搜索,查看是否有目标蛋白质的结构已经存储。如果找不到,可以使用BLAST工具,结合PDB选项,通过网络服务器如NCBI来查询。搜索结果可能包括晶体结构、冷冻电子显微镜的三维重建以及计算机模拟结构。这一步骤也有助于识别现有的类似结构,为未来的结构比较或蛋白质同源建模提供参考。

在生成新结构时,有两种主要方法:一种是使用AlphaFold等工具进行“从头”建模,另一种是基于模板的预测,例如使用Phyre 2.2。这两种工具都是免费的,适合低通量分析。AlphaFold3服务器允许用户每天运行最多30个任务,并提供选项来包含常见的配体,如血红素、腺苷一磷酸(AMP)、烟酰胺腺嘌呤二核苷酸(NAD)等。它还支持生成多聚体结构,并包含特定的离子、DNA和RNA分子。这对于生成完整的结构尤为重要,尤其是当辅因子在蛋白质功能中起关键作用时,如P450酶,其中血红素分子是催化位点的核心。

为了确保生成的蛋白质模型的质量,需要对目标蛋白质的序列准确性进行验证。如果可能,建议手动校对目标物种基因组和转录组资源中的感兴趣基因,并进行实验验证开放阅读框(ORF)序列。确定目标基因的规范形式以及可能的错义多态性或剪接形式,将直接影响生成模型的质量和适用性。在AlphaFold结构生成后,所有结构都会进行最小化处理,以优化其构象。随后,我们使用ChimeraX v1.10对蛋白质模型进行进一步的准备和验证。首先,我们更改血红素分子的链ID(默认为B),以确保下游分析中的正确识别。接着,使用Dock Prep功能,为标准氨基酸残基分配电荷,使用Dunbrack旋转体库替换不完整的侧链,并添加氢原子。随后,使用ANTECHAMBER计算非标准残基的电荷,采用Gasteiger选项以快速获得适合的结果。在P450模型中,这一步骤主要涉及血红素分子的电荷计算,因为其他氨基酸残基都是标准的,我们发现更快的Gasteiger选项足以获得合适的结果。

在ChimeraX中完成Dock Prep后,我们生成血红素与高度保守的半胱氨酸残基之间的盐桥,这一步骤对后续应用至关重要。蛋白质现在准备好进行运输和对接分析,并应以PDB文件格式导出,以确保与后续应用的兼容性。评估生成结构质量的计算工具包括AlphaFold的指标、ERRAT评分和PROCHECK。ERRAT评分和PROCHECK生成的Ramachandran图可以用来判断模型的准确性。ERRAT评分越高,表示预测质量越好,通常认为ERRAT评分超过80%和Ramachandran图中超过90%的残基位于最有利区域,表示高度准确的蛋白质预测。

在准备配体时,感兴趣的化合物(如杀虫剂、生物碱等)的化学结构可以从PubChem数据库下载。与蛋白质类似,这些结构也应进行最小化处理,以确保它们在可靠的对接研究中可用。配体的PDB文件可以在ChimeraX中上传,或者通过化学ID(Pubchem CID或SMILES)直接从数据库导入,并随后使用右键功能进行最小化。ChimeraX的默认设置使用变时间步长的Langevin积分器,容忍度为0.001,温度为100K,非键截断为10?,并在坐标更新之间设置10个时间步长。如果由于几何问题超过最大力,能量最小化将自动进行。配体文件应保存为Mol2格式,因为这种格式保留了分子结构的元数据,包括原子坐标和化学键信息。

为了识别催化口袋和底物进入通道,我们使用Caver Web 2.0工具,该工具允许用户上传经过准备的蛋白质文件,并进行催化口袋和运输分析。该工具还集成了AutoDock Vina v1.1,用于在活性位点或预选区域生成对接构型。Fpocket2工具计算最可能的催化口袋及其体积(?3)、相关性和可药性评分。其中,可药性是配体与口袋结合的可能性。最佳口袋通过手动检查可用选项,选择具有最高“可药性”评分和正确位置的口袋确定。体积、相关性评分和可药性都被记录下来。对于P450,口袋应位于蛋白质内部,并与血红素配体平面接触,包含I-螺旋中的酸-醇对区域。对于其他酶和蛋白质,需要基本的生化和结构知识,以正确识别口袋预测和潜在的相互作用区域。

为了识别底物进入通道,需要选择一个起始点。用户可以选择催化残基、结合口袋或配体位置。在昆虫P450的情况下,我们使用配体(血红素分子)作为起始位置,并将其包含在通道计算中。这确保了不同P450结构之间的基本可比性。计算完成后,建议记录识别出的通道数量和特征。通道数量因蛋白质而异,信息包括从起始点到表面的距离(?)、瓶颈半径(?)和通过量(衡量通道作为运输路线使用的概率)。每个通道的组成残基、中心线和瓶颈也被列出。通道信息可以从CaverWeb 2.0下载为PDB格式。

运输和对接分析可以在Caver Web 2.0中进行,使用CaverDock工具,上传选定的最小化配体(如前所述准备)。对于P450,重要的是在运输分析中排除血红素分子,因为其可能扭曲能量计算,导致结合位点出现显著的能量障碍。配体运输可以计算进入和离开的轨迹。对于诸如杀虫剂和许多植物次生代谢产物等化合物,可靠的配体结构是可用的。然而,其主要代谢产物的结构信息较少。鉴于代谢活性酶将底物转化为化学不同的产物(主要代谢产物),我们计算配体通过所有识别出的通道的运输,但仅针对“进入”轨迹。如果已知主要代谢产物的结构,可以进行第二次配体运输,使用该结构并进行“离开”轨迹分析。完成配体运输后,我们通过设置表面(E_surface)、瓶颈(E_max)和活性位点(E_bound)的能量值点来评估结果,并记录激活能量(E_a)和活性位点与表面之间的能量差(ΔE_BS)。

利用配体运输结果,选择最佳通道以生成潜在的对接构型,使用AutoDock Vina在“筛选”工具中进行。对于P450,为了避免生成与血红素分子冲突的构型,重要的是将血红素的位置纳入Vina计算。这一步骤可以通过独立的Vina对接软件进行,但Caver Web 2.0的优势在于可以指定对接网格框以隧道计算的起始点为中心(每个方向20?)。在我们管道中建模的P450,这确保了不同测试结构之间的结合区域标准化。生成九种结合构型后,可以下载用于进一步分析。

我们使用ChimeraX v1.10对结合构型进行最终评估。此外,PyMol等软件也可以用于此目的。首先评估预测结合状态下的能量值和根均方偏差(RMSD)值。RMSD是衡量两个重叠原子坐标的相似性的常用指标,代表各种构型与“最佳”构型(最低结合能量)之间的差异。因此,最佳构型的得分是0.0(因为它与自身进行比较)。RMSD值有助于选择最能反映配体结合的构型,这可能更具生物学意义。例如,如果最佳构型的取向未能在蛋白质中的催化残基和配体的反应位点之间建立良好的接触,而其他构型可以,那么对接能量和RMSD的偏差可以用来选择最相关的构型。如果多个构型被认为可能具有生物学意义,每个都会进入下一步的验证。使用“碰撞”和“接触”工具,检查所选对接构型与血红素或其他氨基酸侧链之间的碰撞以及配体与蛋白质之间的接触。记录与已知参与催化功能或底物识别的氨基酸残基之间的接触次数。这样可以确定最可能代表生物学相关结合的构型。在筛选P450时,一旦选择了一个构型,我们测量配体的反应位点与血红素分子中的Fe离子以及I-螺旋中酸-醇对的醇残基侧链之间的距离。为了再次强调,最佳的相互作用迹象是当配体的反应位点面向P450的活性位点,距离两者(包括血红素和酸-醇对)小于5?,并且构型没有明显的碰撞。对于其他酶家族和蛋白质,基本的生化和结构知识对于准确预测参与底物识别和催化功能的氨基酸残基至关重要,并且有助于在对接研究中关注潜在的相互作用位点。

除了评估P450的配体运输通道外,通道本身还可以根据其在蛋白质表面的开放或封闭程度进行分类。通道可以描述为封闭(活性位点与表面隔离)、孔洞(开放于小分子如水)或开放(允许较大分子如典型底物进入)。通过封闭表面配置的通道运输配体/底物需要蛋白质发生构象变化。这可能与较慢的结合和较低的Vmax有关。为了评估通道的构象,我们在ChimeraX中添加P450的表面,将形成催化口袋的血红素分子以对比颜色显示。使用CaverWeb 2.0(如前所述)预测出具有良好配体运输值的通道位置可以导入ChimeraX v1.10中,并检查通道入口处的蛋白质表面地形。

在我们研究的三个案例中,CYP9Q3模型004被选为最佳模型,因为其具有较高的ERRAT评分(96.5657%)和Ramachandran图评分(93.6%),并且配体运输分析显示其具有最佳的结合能量。CYP9Q3模型004被预测为具有八个底物进入通道,其中通道1和4对四种杀虫剂(氯噻啉、噻酰苯胺、氟吡呋虫胺和咪蚜胺)的配体运输结合能量最好。这些通道的E_surface、E_max和E_bound值均为负,表示配体在通道中移动的低能量障碍(低激活能量E_a)和从表面到活性位点的有利能量梯度(负ΔE_BS值)。通道1和4的E_surface值较低,表明这些通道在配体运输过程中具有更高的吸引力。

CYP6CY3模型003被选为最佳模型,因为它具有较高的ERRAT评分(96.6135%)和Ramachandran图评分(92.8%),并且其催化口袋体积较大(2383 ?3),可药性评分较高(0.824)。CaverWeb运输分析显示,通道1和2对所有测试化合物具有有利的特性,它们的E_surface、E_max和E_bound值均为负,而通道2的E_max值在尼古丁和噻酰苯胺中略微为正。使用AutoDock Vina生成的对接构型显示,所有四种化合物在活性位点附近形成能量有利的构型,距离Fe离子(血红素)和酸-醇对均小于5?。模型表明,Phe 128(SRS1)和Ala 316(SRS4)对所有四种化合物的结合至关重要。这些结果支持了CYP6CY3可能作为多种杀虫剂和植物生物碱的代谢酶的观点。然而,实验数据表明,DTF(啶虫脒)似乎不能被CYP6CY3代谢,因此我们进一步研究了通道特征,并发现DTF在通道入口处可能形成低能量陷阱,这与之前的研究结果一致。

CYP6CM1的两种变体(v3和v5)在运输和结合分析中表现出不同的特征。v3具有较大的催化口袋(约1800 ?3)和较高的可药性评分(0.739),而v5的催化口袋较小(约1400 ?3)且可药性评分较低(0.672)。v3的通道数量为5,而v5仅检测到2个通道。引入A387G突变后,v3的催化口袋显著扩大(约2600 ?3),可药性评分也提高(0.811)。然而,A387G突变并未显著改善v5的通道特征,这可能表明当前模型的分辨率有限。所有三种结构的通道特征均有所不同,v5的通道具有最高的通过量评分、最大的瓶颈半径和最短的到活性位点的路径。然而,v5中没有观察到类似v3的可药性瓶颈,这可能影响其对某些化合物的代谢能力。

分析AutoDock Vina生成的结合构型显示,所有化合物均适合三种变体的活性位点,并且距离Fe离子(血红素)和酸-醇对较近(<5?)。然而,v5中的酸-醇对被丙氨酸取代,未观察到与杀虫剂或 pymetrozine 结合的明显相互作用。结合能量在三种变体之间基本一致,仅在imidacloprid上略有差异。尽管如此,v5中并未观察到与imidacloprid和thiacloprid的显著结合差异,而实验研究中仅检测到5-羟基-imidacloprid作为代谢产物。这些结果表明,虽然建模流程可以提供合理的图像,但对单个点突变的评估并不简单。运输分析部分解释了v5对thiacloprid代谢的增强,但突变A387G的影响并未完全由建模数据解释。催化口袋的显著变化可能表明分子中存在一定程度的灵活性,但当前的静态结构无法捕捉这种动态特性。

尽管如此,我们的建模流程在某些情况下仍能提供有价值的信息。例如,对于CYP6CM1v5,我们观察到所有生成的构型中,分子的反应环并未朝向活性位点,这可能意味着形成不同的代谢产物。然而,这些结果需要结合实验数据进行验证。此外,我们的研究也指出了一些建模工作的局限性。目前,AlphaFold等工具虽然在结构预测上取得了显著进展,但它们生成的结构仍然是静态的,无法完全反映蛋白质的动态特性。例如,血红素分子的结合可能会影响蛋白质的整体构象,而目前的建模工具难以模拟这种复杂的相互作用。因此,建模结果应被视为对实验数据的补充,而不是替代。在进行P450的建模时,更复杂的对接协议,如诱导拟合对接,可能有助于提高预测的准确性。然而,这些协议通常依赖于晶体结构和专有软件,限制了其广泛应用。未来,开发能够考虑蛋白质和核酸与其它分子相互作用时的全部固有灵活性的开放工具将是非常有价值的。如果可能,将分子动力学纳入运输和对接分析可以显著提高生成预测的准确性。CaverWeb允许在运输分析中引入一些分子动力学,但结果的解释仍然具有挑战性。

综上所述,人工智能生成的三维蛋白质模型为研究昆虫P450酶提供了重要的工具。这些模型能够帮助科学家理解蛋白质的结构与功能之间的关系,尤其是在缺乏实验结构的情况下。通过结合多种在线工具和软件,我们能够对昆虫P450酶进行建模,分析其与杀虫剂和植物生物碱的相互作用,并预测其代谢特性。尽管建模工作存在一定的局限性,如静态结构无法完全反映蛋白质的动态变化,以及对某些关键残基的预测可能不够准确,但这些工具仍然为实验研究提供了有价值的辅助信息。此外,本研究展示了如何利用这些模型来支持和增强实验数据,为分子生态学和作物保护领域提供了新的研究视角。随着技术的不断进步,未来的建模工具可能会更加精确和全面,从而进一步推动对昆虫P450酶的研究。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号