-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于蛋白质语言模型的跨变体CRISPR/Cas9 sgRNA活性预测新方法PLM-CRISPR
《Bioinformatics》:Leveraging protein language models for cross-variant CRISPR/Cas9 sgRNA activity prediction
【字体: 大 中 小 】 时间:2025年07月03日 来源:Bioinformatics 4.4
编辑推荐:
本研究针对CRISPR/Cas9系统中单导RNA(sgRNA)活性预测的跨变体泛化难题,开发了整合蛋白质语言模型(PLM)的深度学习框架PLM-CRISPR。通过ESM2模型编码Cas9变体特征与动态权重融合机制,在7种Cas9蛋白变体数据集上实现优于现有方法的预测性能,特别在数据稀缺的新变体场景中表现突出,为基因编辑工具优化提供通用解决方案。
CRISPR-Cas9基因编辑技术自问世以来已成为生命科学领域的革命性工具,其核心元件单导RNA(sgRNA)的活性直接决定编辑效率。然而现有预测方法存在三大瓶颈:依赖单一Cas9变体的大规模数据训练、难以适应新发现变体、忽视蛋白变体特征的影响。这些问题严重制约了基因编辑技术在多样化场景中的应用,尤其当面对临床治疗中不断涌现的新型Cas9变体时,传统模型的预测性能往往断崖式下跌。
中南大学计算机学院与西北农林科技大学信息工程学院的研究团队在《Bioinformatics》发表的研究中,创新性地将蛋白质语言模型引入该领域。研究团队开发的PLM-CRISPR框架通过ESM2模型编码1368个氨基酸的Cas9变体序列,结合双路径CNN提取sgRNA特征,采用动态权重融合机制建模二者相互作用。实验覆盖WT-SpCas9、SpCas9-HF1等7种变体的18万条数据,结果显示其Spearman相关系数最高提升46.6%,在完全未见过的变体预测中仍保持稳定性能。
关键技术方法包括:1)基于ESM2的Cas9变体特征编码;2)双路径CNN(卷积神经网络)处理59-nt sgRNA序列;3)多尺度TextCNN提取蛋白局部特征;4)动态权重网络融合异源特征。数据来源于Kim、Wang等团队发布的公开数据集,涵盖HEK293T细胞系的编辑活性记录。
3.1 变体特异性与跨变体训练策略对比
通过比较11个数据集的独立训练与联合训练效果,发现跨变体策略在8个数据集显著优于传统方法。如在SniperCas9数据集上,Spearman相关系数从0.648跃升至0.950,证明知识迁移能有效缓解小样本困境。
3.2 机器学习与深度学习基准测试
对比11种传统算法和5种深度模型,PLM-CRISPR均表现最优。XGBoost等模型因仅依赖sgRNA序列特征,在跨变体场景中平均性能落后15-20%。
3.3 三大应用场景验证
在"新发现变体"零样本设定下,PLM-CRISPR仍保持0.85以上相关系数,显著优于TransCrispr等现有方法。Motif分析证实其可准确识别不同变体对应的高活性GC富集模式(如图5所示)。
该研究突破性地将蛋白质语言模型引入基因编辑领域,首次实现Cas9变体特征的量化表征。特征重要性分析揭示,跨变体训练能使模型从大样本数据(如WT_wang的4.6万条数据)中学习位置特异性规则(如PAM邻近区Pos_20:G的重要性),进而提升小样本变体的预测精度。尽管当前模型尚未整合蛋白结构信息,但其开创性的框架设计为CRISPR工具开发提供新范式,未来可通过引入AlphaFold等结构预测模型进一步突破性能瓶颈。