《Plant Cell Reports》:Evaluation of computational tools for the prediction of CRISPR/SpCas9 gRNA activity in plants
编辑推荐:
针对现有CRISPR/SpCas9 gRNA活性预测工具多基于动物细胞数据开发、在植物中应用性能不明的问题,研究人员系统性地评估了20余种在线工具在植物模型本氏烟中的预测效能。研究发现多种机器学习工具与实验编辑效率显著相关,高评分gRNA表现出显著更高的编辑成功率。这为植物基因组编辑中高效gRNA的合理筛选提供了实用指导,有望提升编辑效率与成功率。
随着CRISPR/Cas9(Clustered Regularly Interspaced Short Palindromic Repeats/CRISPR-associated protein 9)技术成为植物研究的常规工具,其成功应用的关键一环——向导RNA(guide RNA, 简称gRNA)的设计——却仍然充满挑战。高效gRNA的理性设计之所以困难,是因为影响其活性的序列和生化因素极为复杂。尽管研究人员已开发出众多基于计算模型的预测工具,但它们大多是基于动物细胞或微生物数据训练而成。这些“舶来”的工具在植物体系中的表现究竟如何,一直存在争议或未经系统检验。这直接导致了植物科研人员在设计gRNA时往往“盲人摸象”,依赖于经验或反复试错,效率低下,对于那些遗传转化过程本就费时费力的植物物种而言,这种不确定性更是雪上加霜。为了打破这一瓶颈,一项系统性评估工作应运而生,旨在为植物基因组编辑领域提供一份清晰的“工具使用指南”。
本研究发表在国际学术期刊《Plant Cell Reports》上。为了回答现有工具在植物中是否有效这一核心问题,研究人员构建了两个独立的本氏烟(Nicotiana benthamiana)实验数据集,共包含52条gRNA,并利用这些数据对超过20种免费、基于网页的gRNA靶向效率预测工具进行了“大比武”。结果发现,多种基于机器学习的工具在两个数据集中均与实验编辑效率呈现出强相关性。尤为关键的是,对于所有测试工具,预测分数位于最高四分位数(quartile)的gRNA,其产生的插入与缺失(Insertion and Deletion, 简称InDel)频率显著高于最低四分位数的gRNA。此外,集成大量非模式植物基因组的平台CRISPOR中的几种算法也展现出良好的预测性能,这可能有助于在gRNA设计中更好地整合靶向效率与脱靶效应预测。这项研究为改善植物基因组编辑应用中的gRNA设计提供了切实可行的指导。
为开展研究,作者主要采用了以下几个关键技术方法:首先,通过瞬时表达SpCas9和单个gRNA(利用基于菜豆金色花叶病毒属病毒的复制子载体)在本氏烟叶片中产生基因组编辑,生成了两个独立的数据集。其次,利用靶向扩增子测序(AmpSeq)技术,精准量化每个gRNA介导的编辑效率,即以检测到的带有InDel突变的读段频率作为指标。最后,研究人员从超过20种网络工具中获取了这些gRNA的活性预测分数,通过线性回归、相关性分析(如斯皮尔曼秩相关)以及分组比较(如四分位数分析)等生物信息学与统计方法,系统评估了各预测工具的效能。
研究结果
系统性评估已开发的gRNA靶向预测工具
本研究建立了完整的评估工作流程。研究人员首先通过农杆菌浸润法在本氏烟叶片中瞬时共表达SpCas9与单个gRNA,生成了两个独立的基因组编辑数据集。基因组编辑效率通过靶向扩增子测序进行量化。随后,获取这些gRNA的多种在线工具预测分数,通过线性回归、相关性分析及分组比较,系统评估了预测分数与植物体内活性的关系

。
多种机器学习工具在植物中展现出强大的预测能力
研究人员首先评估了19种gRNA效率预测工具。结果显示,许多工具的预测分数与植物体内的实验编辑效率存在统计学上的显著相关性。其中,六种基于机器学习的工具,包括CRISPRDB、Doench2022/DeWeirdt(Rule Set 3 或 RS3)、CRISPRon、DeepSpCas9、DeepHF以及AIdit-CRISPR,表现出很高的相关性(Spearman的r值超过0.8)。通过Steiger的Z检验对工具进行两两比较发现,这六种表现最佳的工具之间差异并不显著,但其中几种工具(如CRISPRDB、RS3、CRISPRon和DeepSpCas9)的表现显著优于其他工具(如CRISPRedict和CCTop)。使用第二个数据集对其中五种工具(AIdit-CRISPR已无法访问)进行验证,所有五种工具的gRNA效率预测分数仍与植物体内的基因组编辑效率显著相关。尽管相关性系数(Spearman的r值约为0.5)总体低于第一个数据集,且置信区间较宽,但将gRNA按预测分数分为四分位数后,所有五种工具在两个数据集中均显示,分数位于最高四分位数(Q4)的gRNA产生的实验性InDel频率显著高于最低四分位数(Q1)的gRNA,证明了这些工具区分有效与无效gRNA的能力。
特定工具的表现与集成策略的探索
除了上述高性能工具,sgDesigner工具的表现也颇具特点。其预测分数在两个数据集中均与靶向编辑效率显著相关,但它倾向于给gRNA分配极高或极低的分数,缺乏中间变化。研究人员发现,sgDesigner评分高于50的gRNA介导的InDel频率显著高于评分低于50的gRNA。另一个重要的发现是关于集成多种植物基因组的平台。CRISPOR和CRISPR-P v2.0是两个有用的gRNA设计门户,包含了许多在其他预测工具中缺失或有限的非模式植物基因组。评估发现,CRISPOR平台上的Chari、Azimuth in-vitro(已无法访问)和Wang预测分数在第一个数据集中与植物体内的编辑效率相关性最高,可作为gRNA设计的有用工具,尤其适用于非模式植物。然而,CRISPR-P v2.0的预测分数与实验效率的相关性则低得多。研究人员还尝试通过将多个预测工具的输出进行组合(集成评分)来改进预测,但尽管观察到相关性有微小提升,与单独使用表现最好的工具(如CRISPRDB)相比,这种差异并无统计学显著性。
研究结论与意义
本研究通过两个包含总共52条gRNA的实验数据集,广泛评估了gRNA效率预测工具在植物中的性能。概念验证表明,多种易于获取的计算工具产生的效率预测分数与gRNA在植物体内的活性相关,其中基于机器学习的工具(如CRISPRDB、Rule Set 3、CRISPRon、DeepSpCas9等)表现尤为突出。更重要的是,所有测试工具中,预测分数最高的gRNA组产生的编辑效率都显著高于分数最低的组,这为在实际设计中筛选高效gRNA提供了明确的量化依据。同时,包含大量非模式植物基因组的平台(如CRISPOR)中的部分算法也展现出良好的预测潜力,有助于在设计中同时考虑靶向与脱靶效应。
这项研究的意义在于,它为植物基因组编辑领域提供了关于现有计算预测工具的首次大规模系统性评估和实用指南。它明确指出,尽管许多工具基于动物数据训练,但其中一部分在植物体系中依然有效,能够帮助研究人员在实验前更理性地筛选出高活性的gRNA,从而节省大量时间与资源,并提高在遗传转化困难的植物物种中进行编辑的成功率。当然,研究也指出了当前数据的局限性,包括gRNA数量有限、仅基于单一植物物种等。未来需要在更多植物物种、利用更大规模的gRNA数据集进行验证,并可能通过重新训练表现良好的机器学习算法,来开发真正为植物“量身定制”的预测工具,进一步推动植物基因组编辑技术的发展与应用。