编辑推荐:
CRISPR-Cas 系统是细菌和古菌的适应性免疫机制,已发展为有前景的基因组编辑工具。为解决传统 Cas 蛋白识别方法的局限,研究人员开展基于图神经网络(GNNs)和 SMILES 编码识别 Cas1 蛋白的研究,成功识别潜在 Cas1 蛋白,为基因编辑研究提供新方法。
在神奇的微观生物世界里,细菌和古菌拥有一套独特的 “防御武器”——CRISPR-Cas 系统。这一系统就像是它们的 “免疫卫士”,能够精准地切割入侵的外源 DNA,守护自身的遗传信息安全。随着科学技术的发展,科学家们发现这套系统还能摇身一变,成为强大的基因组编辑工具,在动植物等众多生物的基因改造中发挥关键作用。不同类型的 Cas 蛋白在其中扮演着至关重要的角色,尤其是 Cas1 蛋白,它能与 Cas2 蛋白携手,将外来核酸整合到 CRISPR 序列中,就像给细菌的 “防御数据库” 添加新的 “防御知识” 。
然而,探寻 Cas 蛋白的道路并非一帆风顺。传统的生物信息学方法在识别 Cas 酶时存在诸多限制。它们大多依赖已知的 Cas 酶来预测相似的酶,就像只认识一部分朋友,然后根据这部分朋友去猜其他可能的朋友,这样很容易遗漏那些 “不太像” 的新朋友;而且这些方法主要关注蛋白质序列特征,难以捕捉蛋白质复杂的非线性关系和结构信息,就如同只看到了房子的外观,却忽略了房子内部复杂的结构;此外,传统模型架构简单、参数少,无法深入挖掘蛋白质的深层信息,就像用一把小铲子去探索一座大山,很难有全面而深入的发现。这些问题严重制约了对 CRISPR-Cas 系统多样性和功能的探索,因此,开发更先进的方法迫在眉睫。
为了攻克这些难题,浙江实验室的研究人员勇挑重担,开展了一项极具创新性的研究。他们巧妙地将图神经网络(GNNs)和简化分子输入线输入系统(SMILES)编码相结合,开发出一套识别 Cas1 蛋白的新策略。研究人员通过一系列严谨的实验和分析,成功设计并训练出由两个 Directed Message Passing Neural Network(DMPNN)模型组成的集成模型,这个模型在识别 Cas1 蛋白方面表现卓越。相关研究成果发表在《Scientific Reports》上,为该领域的研究开辟了新的方向。
在这项研究中,研究人员用到了几个关键技术方法。首先是利用 SMILES 编码将蛋白质分子转化为字符串,这样就能把蛋白质的结构信息以一种简洁的方式呈现出来,方便后续分析;接着,基于转化后的 SMILES 字符串构建蛋白质图,明确原子和键的特征,为模型提供丰富的信息;然后,使用 DMPNN 模型对构建好的蛋白质图进行处理,通过消息传递机制来学习蛋白质的结构特征;最后,采用贝叶斯优化方法对模型的超参数进行调整,让模型达到最佳性能。
下面让我们详细看看研究结果:
- 基本策略概述:研究人员尝试了多种策略,发现将两个结构相同但训练数据集不同的模型(Model 1 和 Model 2)结合起来,能够有效识别潜在的 Cas1 蛋白。Model 1 主要负责区分 Cas1 蛋白和非 Cas 蛋白,而 Model 2 则专注于区分 Cas1 蛋白和其他类型的 Cas 蛋白,二者相辅相成。
- Cas1 蛋白预测和分析:研究人员以 Ensembl Bacteria 数据库中的古菌相关蛋白数据集为研究对象,利用 Model 1 进行初步筛选,从众多蛋白中识别出 12574 个 Cas1 候选蛋白。随后,结合氨基酸序列长度信息,进一步筛选出 1113 个蛋白,再通过 Model 2 计算这些蛋白是 Cas1 的可能性,并对两个模型的预测分数进行综合分析。经过一系列严格的验证步骤,最终确定了 17 个高可信度的 Cas1 蛋白。在这些蛋白中,排名靠前的预测分数大多属于 Cas1 蛋白,这充分验证了模型的有效性。不过,对于一些长度小于 250aa 的蛋白,模型的预测效果相对较差,这可能与训练数据集中短序列蛋白的代表性不足有关 。
- 模型性能评估:研究人员使用 ROC(受试者工作特征曲线)和 AUC(ROC 曲线下面积)对模型性能进行评估。结果显示,在训练过程中,Model 1 和 Model 2 的 AUC 值都呈现出良好的增长趋势,表明模型能够快速收敛并有效提取特征。在不同的测试数据集上,两个模型也都展现出了较好的性能,尽管在某些数据集上由于蛋白序列长度或蛋白类型差异等原因,性能会有所波动,但整体表现依然令人满意。此外,通过与其他方法(如 CRISPRCasFinder 等)的对比,进一步证明了该研究方法在识别 Cas1 蛋白,尤其是长度≤400aa 的 Cas1 蛋白方面具有优势 。
- 消融分析:为了探究模型中不同组件的作用,研究人员进行了消融分析。结果发现,DMPNN 的定向消息传递机制对模型性能至关重要,替换为标准 MPNN 后,模型性能显著下降;节点特征和边特征也对模型性能有重要影响,去除节点特征或使边特征同质化都会导致模型 AUC 值明显下降,其中边特征作为分子图的核心拓扑描述符,对模型性能起着决定性作用 。
- 独立数据集测试:研究人员在精心挑选的独立数据集上进行测试,结果表明 Model 2 在识别 Cas1 蛋白方面表现更可靠,但由于算法本身存在不确定性,建议采用双模型共识方法来提高预测的稳健性。同时,研究还发现模型对不同生物物种的预测效果存在差异,对细菌的预测较为准确和稳定,而对古菌和噬菌体的预测则存在一定的局限性 。
综合研究结论和讨论部分,这项研究具有重要意义。它成功开发出一种基于 GNNs 和 SMILES 编码的 Cas1 蛋白识别新策略,为 CRISPR-Cas 系统的研究和应用提供了有力的工具。该策略不仅能够更准确地识别 Cas1 蛋白,还有望扩展到其他类型 Cas 蛋白的预测,进一步丰富基因编辑的工具库。此外,研究还强调了 SMILES 编码在生物大分子研究中的通用性,为蛋白质研究及其他相关领域的计算应用开辟了新的途径。不过,研究也存在一些局限性,如数据集中长序列蛋白数据不足、部分蛋白注释可信度有待提高、模型复杂度较高以及负样本多样性不够等问题。未来的研究可以针对这些问题进行优化和改进,推动该领域的进一步发展,让我们对 CRISPR-Cas 系统这一神奇的 “基因编辑神器” 有更深入的了解和更广泛的应用。