《Small Structures》:Cas12Fold Accurately Predicts Cas12 Nuclease Structures to Enable Structure-based Genome-editing Engineering
编辑推荐:
本文开发了Cas12Fold,一个专为Cas12蛋白设计的深度学习结构预测框架。该框架通过整合Cas12特异性序列数据库(Cas12FoldDB-seq)和迭代结构比对策略,显著提升了Cas12蛋白(包括难预测的dtp-Cas12)的结构预测精度。基于高精度结构模型,研究者成功指导了Cas12j.4的理性工程改造,显著提升了其在人类细胞中的基因组编辑效率,为CRISPR-Cas12系统的机制研究和工具开发提供了强大平台。
1 引言
基因组编辑技术的出现深刻改变了生物技术领域,其中成簇规律间隔短回文重复序列(CRISPR)系统因其简单、精确和多功能性而脱颖而出。虽然CRISPR/Cas9已被广泛采用,但Cas12效应蛋白因其独特的优势而受到越来越多的关注。与Cas9不同,特定的Cas12亚型(如Cas12a、Cas12i、Cas12j和Casλ)不依赖tracrRNA,仅需crRNA即可进行靶向DNA切割。其紧凑的结构和非特异性单链DNA切割活性在各种基因编辑应用中赋予了独特的优势。
为了充分挖掘Cas12系统的潜力,全面了解其三维结构至关重要,因为这是其靶标识别和切割机制的基础。虽然X射线晶体学和冷冻电镜(cryo-EM)等技术仍然是蛋白质结构测定的金标准,但其高成本和有限的通量限制了对不断扩展的Cas12亚型进行系统分析。
计算结构预测已成为应对这些实验限制的重要补充方法。AlphaFold2等深度学习算法通过整合进化信息和物理原理,彻底改变了蛋白质建模领域。然而,这些通用预测工具的性能严重依赖于强大的进化信息。对于特定的Cas12亚型,特别是那些进化上存在分歧或同源物有限的亚型(如Casλ),构建高质量的多序列比对(MSA)仍然是一个重大挑战。这一限制直接影响了预测的准确性,因为不充分的MSA会产生次优或不准确的模型,从而限制了这些预测的更广泛应用。
为了克服这些限制,研究者开发了Cas12Fold,这是一个用于Cas12蛋白高精度结构预测的专门框架。Cas12Fold整合了两项关键创新,以增强AlphaFold2的预测能力。首先,它采用了Cas12FoldDB-seq,这是一个精心策划的数据库,包含从多个基因组和宏基因组来源挖掘的约390万个Cas12和Cas12样蛋白。这个广泛的数据库提供了丰富的进化背景,即使对于分歧的Cas12亚型也能生成稳健的MSA。其次,Cas12Fold采用迭代结构比对方法,通过整合来自Cas12FoldDB-struct的模板信息来优化初始结构预测。通过迭代比对和模板整合,Cas12Fold显著提高了预测准确性,特别是在建模复杂区域和动态构象状态方面。研究者证明,Cas12Fold提供的准确结构有助于Cas12蛋白的结构导向工程,并提高了Cas12j.4在人类细胞中的基因组编辑效率。
2 结果
2.1 Cas12Fold框架概述
Cas12Fold系统是一个专门的三级结构预测框架,旨在通过对已建立的AlphaFold2架构进行战略性改进,来提高Cas12蛋白的建模精度。AlphaFold2采用多阶段工作流程,首先从蛋白质序列数据库为目标序列生成MSA,然后从已知蛋白质结构中识别结构模板,最后使用MSA和模板信息作为输入,进行基于深度学习的结构预测。
Cas12Fold系统通过三项关键改进来增强Cas12蛋白的结构预测准确性。首先,通过整合五个序列数据库(包括标准资源和一个专门的Cas12FoldDB-seq数据库)来显著扩展MSA采样。这些数据库为Cas12蛋白家族提供了更全面的同源序列覆盖。其次,通过整合标准PDB70数据库和一个定制的Cas12FoldDB-struct数据库来增强结构模板识别,从而提供对通用蛋白质结构数据库中可能不存在的Cas12特异性结构模板的访问。第三,引入了一种新颖的迭代结构精化机制,使用基于结构的比对,其中初始预测模型作为查询,针对Cas12FoldDB-struct库来识别结构相似的模板。基于结构的比对被转换为MSA格式,并与原始MSA合并,为目标序列构建增强的MSA采样。通过使用HHfilter去除冗余度超过90%的冗余序列来保持质量控制,并且只有当新生成的模型达到比先前迭代更高的pLDDT分数时,精化才会进行。迭代精化过程持续进行,直到全局pLDDT分数没有显著改善或达到预定义的迭代限制,此时具有最高pLDDT分数的模型代表最终优化的结构预测。
2.2 Cas12Fold在建模实验确定的Cas12结构方面达到卓越的准确性
为了评估Cas12Fold在建模Cas12蛋白结构方面的性能,研究者将其与几种最先进的结构预测工具进行了基准测试,包括AlphaFold2、AlphaFold3、DeepMSA2、ColabFold和ESMFold。使用包含30个实验确定的Cas12蛋白结构的基准数据集,系统评估了全局结构和局部功能域分辨率方面的预测准确性。
为了基准测试全局结构准确性,研究者计算了基准数据集的pLDDT(预测置信度)、全局距离测试总分(GDT_TS;全局折叠准确性)和均方根偏差(RMSD;结构偏差)。Cas12Fold在所有三个指标上都表现出显著优势。Cas12Fold实现了91.7的中位pLDDT分数,显著高于竞争方法。Cas12Fold不仅实现了更高的中位pLDDT分数,而且在高置信度值周围的分布更集中,表明其结构预测既优越又更一致。同时,Cas12Fold表现出优越的GDT_TS分数(中位数90.4),同时RMSD值降低(中位数1.14 ?),证实了整体结构准确性的提高以及与实验确定结构的更接近。研究者比较了预测结构模型的局部结构域的准确性,这对Cas12功能至关重要。Cas12Fold在所有六个测试的结构域(BH、NUC、PI、REC、RuvC和WED)中始终实现了更高的平均pLDDT分数。值得注意的是,Cas12Fold在负责靶标DNA识别和切割的功能关键结构域中表现出稳健的性能,包括REC结构域、RuvC结构域和WED结构域。这些结果表明,Cas12Fold为全局结构和基本功能区域提供了更准确和可靠的建模。
RuvC结构域内激活的DED基序(Asp-Glu-Asp)作为一个关键的催化中心,协调金属离子(如Mg2+)以实现靶标DNA切割和附带单链DNA降解。准确预测该基序及其周围的口袋对于阐明Cas12催化机制和指导理性基因组编辑设计至关重要。Cas12Fold在DED基序残基方面实现了优于竞争方法的平均pLDDT分数,特别是第一个天冬氨酸(1D)和第二个谷氨酸(2E)位置具有极高的置信度,第三个天冬氨酸(3D)位置尽管略低于DeepMSA2和AlphaFold3,但也具有竞争性表现。为了评估催化口袋的更广泛准确性,研究者分析了每个DED基序位置6 ?半径内的所有残基。Cas12Fold在这个功能口袋中始终实现了高精度,这些周围区域的平均pLDDT分数分别为95.5、93.8和93.7,显著优于AlphaFold2、ESMFold、ColabFold、DeepMSA2和AlphaFold3。这些结果证明,Cas12Fold改进了这些关键催化区域的结构预测。
研究者期望更准确的结构建模将有助于识别Cas12蛋白中的关键功能残基。为了验证这一点,研究者使用Pesto评估了预测结构中DED基序的核酸相互作用潜力。DED基序位于RuvC结构域区域内,这些区域在催化过程中保持核酸相互作用能力以容纳底物。每个DED基序包含三个关键催化残基,在30个基准蛋白中总共有90个DED残基。研究者在不同工具预测的结构中识别了高质量核酸结合位点(HQ-NBSs,Pesto分数大于0.7的残基)。DED基序内HQ-NBSs数量越多,表明局部结构环境保存得越好,这有利于催化功能。Cas12Fold预测的结构在DED基序内保留了比竞争工具多得多的HQ-NBSs。具体来说,在Cas12Fold模型中,90个DED残基中有58个被归类为HQ-NBSs,而竞争工具的模型中只有42-52个残基。此外,Cas12Fold模型还覆盖了18个蛋白质,其中所有三个DED残基都是HQ-NBSs,而其他方法只实现了11-16个蛋白质。然而,对于10个Cas12蛋白,所有评估的工具都未能成功产生具有两个或更多DED残基作为HQ-NBSs的模型。尽管仍然存在一些具有挑战性的案例,但Cas12Fold在预测实验确定的Cas12蛋白结构及其功能区域方面始终优于现有工具。
2.3 Cas12Fold的模块化优化策略及其在动态构象预测中的增强
Cas12Fold通过三项专门设计用于提高Cas12蛋白结构预测准确性的针对性增强,推进了AlphaFold2框架。为了评估每个优化模块的贡献,研究者将它们单独或组合与AlphaFold2进行了基准测试,使用了30个实验解析的Cas12结构。性能评估揭示了一个清晰的分层改进模式,其中Cas12Fold(MSA_only)仅利用MSA信息,Cas12Fold(MSA_temp)整合了MSA和模板信息,Cas12Fold(MSA_temp_refine)在Cas12Fold(MSA_temp)的基础上整合了额外的结构精化。
在30个Cas12蛋白中,AlphaFold2实现了85.9的平均pLDDT分数;然而,其2.91 ?的平均RMSD揭示了与天然结构的偏差。与AlphaFold2相比,Cas12Fold(MSA_only)提供了改进,平均pLDDT从85.9增加到87.6,RMSD从2.91改善到2.89 ?。尽管整体增益有限,但Cas12Fold(MSA_only)对于进化信息严重缺乏的特定案例证明是有价值的,它主要通过扩展MSA数据来提高整体pLDDT分数。Casλ(8dc2)就是这种情况的一个例子,AlphaFold2的稀疏MSA仅包含9个同源序列(Neff = 0.3),导致整体pLDDT为59.5。这种糟糕的性能表现为关键功能结构域(PID、OBD和TSL结构域得分均低于pLDDT 50)的置信度极低,以及N-lobe与实验构象的严重结构偏差(RMSD为5.21 ?)。相比之下,Cas12Fold(MSA_only)利用包含42个序列(Neff = 1.3)的扩展MSA,将整体pLDDT显著提高到89.8,并将结构偏差降低到RMSD为3.04 ?。这一显著增强表明,全面的MSA数据可以有效补偿现有数据库中进化信息的缺乏,显著提高同源序列有限的蛋白质的预测置信度和结构重建质量。
模板整合是性能增强的关键因素,特别是对于与可用模板具有高度结构相似性的蛋白质。这种方法有效地解决了进化信息缺口,同时优化了全局架构和局部构象。Cas12Fold(MSA_temp)在两项指标上都取得了实质性改进,平均pLDDT为90.6,RMSD为1.61 ?,表明预测置信度和结构准确性都有显著提高。Cas12i(6w5c)展示了这种能力,Cas12Fold(MSA_only)在N-lobe(残基1-600,RMSD:1.83 ?)和C-lobe(残基601-1043,RMSD:1.16 ?)实现了合理的局部准确性。然而,由于N-lobe和C-lobe之间拓扑关系建模错误,全局组装失败,导致整体结构不佳(RMSD:6.43 ?)。Cas12Fold(MSA_temp)中的模板整合解决了这一关键限制,通过精确的环构象建模和正确的结构域定位,实现了接近实验的准确性(RMSD:0.76 ?)。这一结果强调了模板信息在建模柔性区域和实现准确全局结构预测中的重要作用。
精化模块通过从Cas12FoldDB-Struct中结构比对的模板生成MSA,并将其与基于序列的比对整合,进一步提高了性能。这种方法能够发现基于序列搜索遗漏的结构相关模板,并改进了复杂或动态功能结构域的建模。Cas12Fold(MSA_temp_refine)实现了额外的性能增益,平均pLDDT为91.5,RMSD为1.52 ?,表明置信度和准确性指标持续改进。虽然这些整体改进看起来不大,但精化模块在准确建模具有挑战性的案例中功能关键的动态区域方面证明特别有价值。8rdu(Cas12k)展示了这种能力,其中残基547-588包含一个盖基序,该基序动态调节核酸结合口袋的可及性,控制靶标DNA/RNA结合和切割活性。实验构象在残基576-579(KYAK)处具有一个反向扭曲的螺旋,形成一个对底物进入至关重要的开放盖构象。相比之下,Cas12Fold(MSA_temp)预测这些残基为一个典型的α-螺旋,残基585-588(VHRW)形成一个小环,导致一个紧凑的螺旋-环-螺旋排列,与实验的开放构象显著偏离(RMSD:2.15 ?)。经过精化后,Cas12Fold(MSA_temp_refine)准确地捕捉了实验架构,576-579(KYAK)螺旋和585-588(VHRW)环都与实验结构紧密匹配(RMSD:0.43 ?)。这种自适应精化策略在30个基准蛋白中展示了实际效率,其中三分之一不需要额外的迭代,60%在1-2个周期内收敛,从而限制了计算开销,同时为具有挑战性的蛋白质提供了显著的局部增益。进一步分析显示,Cas12Fold(MSA_temp)预测可以与7n3o叠加(RMSD:1.70 ?),表明两种模型都代表了合理的构象,而不是预测错误。
除了提高单个构象的准确性之外,分析中出现了一个有趣的发现:MSA_temp和MSA_temp_refine模块有时会生成对应于不同实验构象的模型,揭示了多构象预测的意外能力。对多个案例的系统分析证明了这一现象:对于8d49,Cas12Fold(MSA_temp_refine)产生了一个与8d4a(Cas12a2二元复合物,RMSD:0.52 ?)最相似的结构,而Cas12Fold(MSA_temp)更好地匹配8d49(Cas12a2四元复合物,RMSD:0.62 ?)。对于8qwd,精化版本与5xut对齐(RMSD:2.80 ?),而仅模板版本匹配5id6(RMSD:3.67 ?)。在7v93、8h9d和8i16中也观察到了类似的差异对齐模式。这些观察结果表明,精化模块不仅提高了动态区域的准确性,而且通过来自不同结构模板的MSA,实现了多种生物学相关构象的灵活建模。这种能力代表了在捕捉Cas12蛋白的动力学和构象灵活性方面的一个显著进步,为其功能机制的结构基础提供了宝贵的见解。
2.4 Cas12Fold重新定义了难预测Cas12蛋白的分类
为了探索Cas12Fold在建模大规模蛋白质结构方面的能力,研究者评估了其在完整Cas12Seed数据集(包含5437个跨越不同亚型的高置信度Cas12序列的集合)上的性能。对十个随机选择的Cas12Seed蛋白(500-1400个氨基酸)的系统基准测试表明,Cas12Fold在所有评估的工具中提供了有利的准确性-效率权衡,在速度上显著优于DeepMSA2,同时在准确性上保持优于ESMFold和ColabFold等更快的方法。研究者进一步将Cas12Fold和AlphaFold2应用于完整的Cas12Seed数据集,以评估其大规模性能。两种方法都为大多数蛋白质生成了高置信度(pLDDT > 70)的预测,AlphaFold2覆盖了5332个蛋白质(98.06%),Cas12Fold达到了5399个蛋白质(99.30%)。重要的是,与AlphaFold2相比,Cas12Fold表现出普遍更高的平均pLDDT(87.9对87.0),表明在整个Cas12蛋白家族中具有优越的准确性和稳健性。值得注意的是,AlphaFold2未能对106个蛋白质(pLDDT < 70)达到高置信度,研究者将这些蛋白质指定为dtp-Cas12蛋白,代表本质上难以预测的目标。当在这些困难案例上将Cas12Fold与其他五个竞争对手进行比较时,Cas12Fold通过减少低置信度区域的分布并将所有挑战性目标的平均pLDDT提高到75以上,显著优于所有竞争对手。值得注意的是,与AlphaFold2相比,71个蛋白质在Cas12Fold下显示出pLDDT改善超过10(指定为pLDDT改善的dtp-Cas12)。此外,DeepMSA2也表现出显著的性能增益,有34个pLDDT改善的dtp-Cas12,强调了丰富的MSA信息在建模难预测Cas12结构中的关键重要性。此外,对106个dtp-Cas12的Rosetta能量分析显示,与其他竞争对手相比,Cas12Fold预测的结构稳定性增强。在评估的结构中,78个(73.6%)Cas12Fold预测表现出有利的负Rosetta分数,显著优于DeepMSA2(48个蛋白质,45.3%)、AlphaFold3(26个蛋白质,24.5%)、AlphaFold2(19个蛋白质,17.9%)、ColabFold(8个蛋白质,7.6%)和ESMFold(0个蛋白质,0%)。这些结果表明,Cas12Fold为具有挑战性的预测目标生成了热力学上更稳定的结构。
随后,研究者通过构建基于序列和结构信息的系统发育树,研究了pLDDT改善的dtp-Cas12的进化背景。使用基于序列的系统发育分析,这些具有挑战性的蛋白质主要聚集在五个不同的分支中:dtp-Cas12.I在Cas12n和Cas12f21附近形成了一个独立的进化枝,可能代表一个新的亚型;dtp-Cas12.II与Cas12o紧密嵌套,表明属于Cas12o亚型;dtp-Cas12.III-V分别显示出与CasPi、Cas12a和Casλ的进化亲和性。然而,使用FoldTree进行的基于结构的系统发育分析揭示了方法依赖的进化关系差异。关键差异出现在dtp-Cas12.I蛋白上:虽然序列分析将它们定位在Cas12n/Cas12f21附近,但使用Cas12Fold预测的基于结构的分析将它们放置在Casλ附近。相比之下,基于AlphaFold2的结构树表现出不一致的聚类模式,特别是dtp-Cas12.I蛋白分裂成两个独立的子分支,分别与Cas12b2和Cas12j相关联。鉴于这些冲突的拓扑结构,使用多个互补指标对树质量进行定量评估显示,基于Cas12Fold的结构树表现出优于基于序列和基于AlphaFold2的结构树的性能,具有显著更低的根到末端方差和更高的TCS,支持其推断dtp-Cas12.I在结构上与Casλ相关的有效性。
为了解析dtp-Cas12.I蛋白的亚型归属,研究者使用从AlphaFold2和Cas12Fold预测中计算的模板建模(TM)分数进行了定量结构相似性分析。AlphaFold2预测在dtp-Cas12.I和其他亚型之间产生了一致的低平均TM分数(约0.25),即使在结构树中系统发育相邻的Cas12b2/Cas12j也没有提供清晰的进化信号。此外,Cas12o和Cas12h在AlphaFold2预测中都表现出较差的结构一致性,其内部TM分数(分别为0.37和0.42)和外部TM分数(平均分别为0.29和0.30)低于其他亚型,表明AlphaFold2对这些具有挑战性的亚型的预测准确性受损。相比之下,Cas12Fold显著改善了结构一致性,dtp-Cas12.I的内部平均TM分数增加到0.50,Cas12o增加到0.54,Cas12h增加到0.69。虽然dtp-Cas12.I与大多数其他亚型之间的亚型间TM分数普遍较低,但其与Casλ的结构相似性从0.27(AlphaFold2)显著提高到0.50(Cas12Fold),揭示了一个传统分析中不明显的潜在进化关系。
为了验证这种结构关系,研究者进行了结构域特异性分析,将Casλ和dtp-Cas12.I蛋白分割为全长、N-lobe和C-lobe区域,并比较了基于AlphaFold2和Cas12Fold预测的亚型内结构相似性。Cas12Fold在所有结构片段中始终产生优越的TM分数,其中C-lobe显示出最显著的改进。此外,当对Casλ和dtp-Cas12.I蛋白进行集体分析时,C-lobe相似性仍然高于N-lobe和全长比较,表明Cas12Fold预测的dtp-Cas12.I和Casλ之间的结构相似性可能主要由C-lobe保守性驱动。为了进一步确定在Cas12Fold预测中是否有任何其他亚型与dtp-Cas12.I蛋白的C-lobe具有相似特征,研究者使用Cas12亚型代表性数据集来计算N-lobe和C-lobe的跨亚型TM分数。结果显示,dtp-Cas12.I蛋白的N-lobe达到了0.47的最大TM分数,证实了显著的结构分歧。相比之下,dtp-Cas12.I的C-lobe与Casλ的TM分数为0.69,仅次于亚型内相似性(TM分数=0.76),并显著超过与其他亚型的分数。然而,C-lobe区域的基于序列的系统发育分析仍然将dtp-Cas12.I放置在Cas12m/Cas12n附近,而不是Casλ,这与全长序列分析一致,并证明序列水平信号未能捕捉到它们的结构趋同。这些结果证实,尽管序列相似性有限,但dtp-Cas12.I蛋白在C-lobe结构域中表现出与Casλ的显著结构趋同,支持它们作为一个独特但进化相关的亚型的分类。这一关键的结构洞察是通过传统的基于序列或基于AlphaFold2的系统发育分析不易获得的,展示了Cas12Fold在阐明复杂进化关系和促进多样化Cas12蛋白家族内准确亚型分类方面的独特能力。
2.5 Cas12Fold的高精度结构预测指导Cas12蛋白的理性工程
研究者进一步评估了Cas12Fold在dtp-Cas12s上相对于五个竞争对手的性能,重点关注功能关键区域,包括DED基序和6 ?半径内的周围残基。分析揭示了明显的性能差异:AlphaFold2、AlphaFold3和ColabFold在这些区域表现出显著的置信度波动,频繁出现低置信度残基(pLDDT < 50),表明在解析对催化功能至关重要的结构细节方面存在局限性。相比之下,Cas12Fold、DeepMSA2和ESMFold表现出更集中的pLDDT分布,其中Cas12Fold实现了接近最大值的置信度分数,接近100,这是所有测试方法中最高的预测准确性。这些结果表明,Cas12Fold增强了具有挑战性的Cas12目标的整体预测置信度,同时精确地捕捉了功能关键的结构特征,为机制研究和理性设计工作提供了一个强大的工具。
值得注意的是,在pLDDT改善的dtp-Cas12蛋白中,dtp-Cas12.II33被鉴定为与最近表征的Cas12o1蛋白相同。Cas12Fold将该序列的pLDDT分数从69.7(AlphaFold2)显著提高到81.5。为了严格验证预测准确性,研究者对所有测试工具的预测与实验确定的Cas12o1结构(8xca/8xcc)进行了结构比对。Cas12Fold实现了最低的RMSD值,分别为3.81和2.68 ?,优于所有竞争工具。预测结构和实验结构的直接叠加显示,Cas12Fold表现出优于其他方法的准确性,特别是在功能关键的Helical II-BH结构域区域(残基550-580),该区域对于RuvC结构域稳定性和靶标识别至关重要,与实验确定的构象偏差最小。为了进一步评估Cas12Fold的泛化能力,研究者收集了2024年10月25日之后在RCSB数据库中发布的Cas12结构,排除了经过充分研究的Cas12a亚型和短于500个氨基酸的蛋白质。经过冗余去除后,研究者获得了六个额外的蛋白质目标(不包括Cas12o1):Cas12h1、Cas12-1、Cas12X、Cas12X2、Cas12h和Cas12n。在大多数目标上,Cas12Fold始终实现了最高的pLDDT分数和相对于实验确定结构的最低RMSD值,表现出优越的结构准确性。重要的是,Cas12Fold的结构模板库是在这些蛋白质公开发布之前建立的,并且这些测试蛋白质都不存在于Cas12FoldDB中。系统相似性分析证实,虽然数据库中存在同源蛋白质,但Cas12Fold即使在同源性最小的挑战性案例(Cas12o1)中也保持了稳健的性能,证明了真正的泛化能力。
控制Cas12编辑效率的关键氨基酸残基通常位于负责核酸识别和结合的功能结构域中。研究者假设增强的结构预测准确性将有助于更精确地识别核酸相互作用位点,从而能够系统地发现编辑效率关键残基。为了验证这一假设,研究者收集了七个具有实验验证的编辑效率位点的Cas12变体:dtp-Cas12.II33(Cas12o1)、Cas12h1、Cas12i2、Cas12i3、AsCas12f、AaCas12b和PlmCasX。对于每个蛋白质,研究者使用所有六种方法预测了结构,使用Pesto识别了HQ-NBSs,并将这些识别结果与已知的效率调节残基进行了比较。结果显示,Cas12Fold在所有七个蛋白质上实现了最高的pLDDT分数(范围从81到93),表明预测置信度优越。此外,Cas12Fold在七个蛋白质中的六个上识别了预测的HQ-NBSs和实验验证位点之间的最大重叠数量(例如,dtp-Cas12.II33有21个重叠,Cas12h1有9个),显著优于替代工具。
为了证明高置信度结构预测可以指导蛋白质工程,研究者选择了Cas12j.4,这是一个在结构预测方面显示出显著改进的Cas12蛋白:Cas12Fold使用Cas12Fold实现了77.9的pLDDT,而其他方法产生了相当低的pLDDT分数:AlphaFold2(57.1)、ESMFold(55.0)、AlphaFold3(49.4)、DeepMSA2(48.8)和ColabFold(46.0)。这种差异说明了Cas12Fold在建模具有稀疏进化信息的Cas12蛋白方面的卓越能力。鉴于Cas12j.4在基于序列和结构特征构建的系统发育树中始终聚集在Cas12o进化枝内,研究者对Cas12j.4的预测模型与目前唯一可用的Cas12o1实验结构(8xca/8xcc)进行了结构比对分析。Cas12Fold预测的结构表现出最低的平均RMSD(3.2 ?),与Cas12o1实验结构相比,优于其他方法:AlphaFold2(4.89 ?)、DeepMSA2(4.27 ?)、ESMFold(4.40 ?)、AlphaFold3(5.26 ?)和ColabFold(5.30 ?),表明其预测可能更接近正确的构象。
在Cas12o1中,R671残基直接与靶链(TS)上的dG8'的磷酸基团相互作用,促进双链DNA解旋和crRNA-TS双链体形成,其突变为丙氨酸显著降低了编辑效率。受此关键功能位点的指导,研究者使用FoldMason进行多重结构比对,将来自所有测试预测器的Cas12j.4模型叠加到Cas12o1实验结构(8xca)上,将Cas12j.4中的K606识别为对应于Cas12o1中R671的位置。为了系统地评估该区域在Cas12j.4中的功能重要性,研究者使用Pesto分析了K606及其两侧各四个侧翼残基的蛋白质-核酸相互作用潜力。结果显示,与其他软件预测相比,Cas12Fold预测的结构在八个位置上普遍表现出较高的相互作用概率,其中C605和N608显示出特别显著的差异。基于这些结果,研究者在Cas12j.4的七个候选位置(I602、N603、C605、K606、K607、N608和L610)引入了突变为精氨酸,以进行功能验证,排除了R604(已经是精氨酸)和L609(在所有预测结构中相互作用概率一致