基于结构的CRISPR/Cas9蛋白分类:一种用于阐明Cas9别构效应的机器学习方法
《Journal of Molecular Biology》:Structure-Based Classification of CRISPR/Cas9 Proteins: A Machine Learning Approach to Elucidating Cas9 Allostery
【字体:
大
中
小
】
时间:2025年11月11日
来源:Journal of Molecular Biology 4.5
编辑推荐:
本研究采用结构基机器学习系统识别CRISPR/Cas9的长程调理性网络,筛选出28对关键Lys-Arg残基对,揭示其介导的“电负性山谷”对SpCas9稳定性和特异性的调控机制,并通过分子动力学验证其作用路径,为理性设计高保真Cas9变体提供新框架。
CRISPR/Cas9系统是基因编辑领域的一项革命性技术,其能够以高精度、高效的方式对DNA进行定向修改。这项技术最初源于细菌的天然免疫机制,用于切割入侵病毒的DNA。如今,CRISPR/Cas9已被广泛应用于基因编辑、医学研究、农业和生物技术等多个领域。其中,Cas9作为核心组件,是一种由RNA引导的核酸酶,能够通过特定的向导RNA(sgRNA)识别并切割目标DNA序列。在众多Cas蛋白中,来自溶血性链球菌的Cas9(SpCas9)因其结构简单、功能多用途而成为研究的重点。
尽管Cas9具有诸多优势,但其在实际应用中仍面临一些固有的限制,特别是其特异性不足和脱靶效应。脱靶效应指的是Cas9在非目标位点切割DNA,这可能导致不可预测的基因突变,对基因治疗的安全性构成威胁。因此,提升Cas9的特异性、减少脱靶效应成为当前研究的重要方向。为了解决这一问题,研究者们致力于深入解析Cas9的分子机制,尤其是其在催化活性和DNA结合特性方面的作用方式。
在Cas9的结构中,存在多个关键的功能域,包括REC、HNH、RuvC和桥接螺旋(BH)等。这些功能域之间的构象变化和相互作用是Cas9实现DNA识别和切割的重要基础。研究表明,当Cas9识别到靶点邻近的短重复序列(PAM)后,会经历一系列的构象转变,这些转变不仅有助于DNA解旋,还能促进向导RNA与DNA的杂交,并最终实现对目标链的切割。这一过程的核心在于功能域之间的长程变构通信,即某些特定的残基对通过相互作用协调这些构象变化。
目前,许多研究已经采用计算和实验方法来探索Cas9的特异性增强机制。这些研究涉及多种策略,如提高校对能力以更有效地区分靶点和非靶点序列、通过选择性破坏Cas9与非靶点DNA之间的静电或疏水相互作用来减少非特异性结合、以及通过改变Cas9的结构构象来影响目标DNA的可接近性,从而调节Cas9-DNA复合物的稳定性。然而,这些研究大多关注特定突变如何影响Cas9的特异性,而较少系统地分析残基对之间的长程通信如何影响整体的稳定性与功能完整性。
为了更全面地理解Cas9的变构调控机制,本研究引入了一种基于结构的机器学习(ML)方法,用于系统地识别关键的残基对网络。该方法通过将残基间的距离作为预测特征,利用所有可用的Cas9结构数据进行训练,从而确保对Cas9结构景观的全面覆盖。在此基础上,研究团队进一步应用该模型分析SpCas9,以展示特征选择的过程。通过Cα-Cα残基间距离的计算,研究者们识别并优化了关键的变构网络,最终将庞大的特征空间缩减至28个关键的赖氨酸-精氨酸(Lys-Arg)残基对,这些残基对在SpCas9的功能域间通信、结构稳定性和特异性调节中发挥重要作用。
这些Lys-Arg残基对在初始状态下具有约46.5 ?的残基间距离,但通过分子动力学(MD)模拟发现,它们在结构稳定性和功能调节中表现出不同的行为模式,这表明存在一个分层的变构网络。进一步的突变分析表明,当直接或间接破坏这些关键残基对时,会导致SpCas9的DNA结合构象发生不稳定,从而影响其特异性。通过引入“静电谷”这一概念,研究团队揭示了一种重要的稳定机制,即正电荷残基与负电荷DNA之间的相互作用有助于维持SpCas9的结构完整性。这一机制在多种突变实验中得到了验证,突变实验显示,破坏静电谷会导致SpCas9的DNA结合能力下降,从而为提高其特异性提供了不同的优化路径。
本研究不仅为理解Cas9的变构调控提供了新的框架,还通过将机器学习驱动的结构分析与分子动力学模拟相结合,展示了如何系统地识别关键的变构残基对。这一方法为设计高保真度的Cas9变体提供了理论依据,有助于减少脱靶效应并提高其在基因治疗中的应用潜力。此外,该方法还可推广至其他酶的调控机制研究,为理性蛋白设计提供新的思路和工具。
研究团队通过手动下载RCSB-PDB数据库中的所有“CRISPR/Cas9内切酶”结构数据,并排除低分辨率和单域结构,最终筛选出53个包含Cas9所有典型功能域的结构数据。这些数据被用于构建基于结构的机器学习模型,以识别关键的残基对网络。在分析过程中,研究者们发现Lys-Arg残基之间的相互作用在5-75 ?范围内具有重要作用,这些相互作用不仅连接不同的功能域,还对维持Cas9的结构稳定性和调节其特异性至关重要。
为了验证这一模型的有效性,研究团队还进行了分类分析,以确认通过特征选择识别出的关键残基对在Cas9功能中的重要性。此外,研究团队还利用Cα-Cα残基间距离的计算方法,进一步优化了模型的预测能力,确保其能够准确识别与Cas9特异性相关的关键残基对。通过这些分析,研究团队不仅揭示了Cas9的变构调控机制,还为设计高保真度的Cas9变体提供了理论支持和实践指导。
研究过程中,作者们使用了ChatGPT等生成式人工智能工具,用于纠正语法错误并优化句子表达。在使用这些工具后,作者们对内容进行了仔细的审查和编辑,确保最终发表的文章内容准确无误,并对文章内容承担全部责任。此外,研究团队还明确了各作者在研究中的具体贡献,包括撰写初稿、数据可视化、软件开发、数据整理、方法设计、实验分析等。
在研究过程中,作者们还声明了可能存在的利益冲突。其中,J.L.作为Neoclease, Inc.的联合创始人,可能在某些方面存在潜在的利益关系。为了确保研究的透明性和公正性,研究团队对这一利益冲突进行了公开声明,并在研究中采取了相应的措施,以避免可能的偏倚。
本研究还得到了美国国家卫生研究院下属的国家一般医学科学研究所(NIGMS)的资助,资助编号为R21GM144860。研究团队还提供了代码和数据的可用性信息,包括用于分析的Cas9和非Cas9蛋白质数据集,以及第一轮特征选择中所有特征的全局排名。这些数据和代码的公开有助于其他研究者复现研究结果,并进一步探索Cas9的变构调控机制。
通过本研究,作者们不仅揭示了Cas9变构调控的关键残基对,还提出了一个基于结构的机器学习方法,用于系统地识别这些关键网络。这一方法为未来研究Cas9的变构调控提供了新的工具和思路,有助于推动基因编辑技术的发展。同时,该方法也可应用于其他酶的调控研究,为理性蛋白设计提供理论支持和技术指导。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号