X-CRISP:基于可解释性神经网络和迁移学习的CRISPR修复结果预测新方法

《Bioinformatics Advances》:X-CRISP: Domain-Adaptable and Interpretable CRISPR Repair Outcome Prediction

【字体: 时间:2025年07月03日 来源:Bioinformatics Advances 2.4

编辑推荐:

  本研究针对CRISPR基因编辑中修复结果预测的通用性和可解释性难题,开发了X-CRISP模型。通过整合微同源(MH)位置特征与神经网络架构,该模型在预测删除/插入频率时显著优于现有工具(JSD降低0.04-0.05),并首次证实MH位置比GC含量对删除结果影响更大。采用迁移学习策略后,仅需50个目标域样本即可实现跨物种(小鼠→人)和基因型(NHEJ-/-)的精准预测,为个性化基因治疗提供新工具。

基因编辑技术CRISPR-Cas9的临床应用面临两大挑战:修复结果的不可预测性,以及现有预测模型在跨细胞类型应用时的性能下降。虽然模板依赖的同源定向修复(HDR)能精确控制结果,但其效率受细胞周期限制;而非同源末端连接(NHEJ)和微同源介导末端连接(MMEJ)虽可全程激活,却会产生高度随机的插入/删除突变。更棘手的是,当前预测工具如FORECasT、Lindel等或依赖数千个难以解释的二元特征,或无法跨细胞系保持性能,严重制约了精准基因治疗的实现。

针对这些瓶颈,荷兰代尔夫特理工大学的研究团队开发了X-CRISP预测系统。该系统创新性地采用5个核心特征(包括MH左/右边缘位置、间隙长度等)构建神经网络,在保留可解释性的同时,通过非线性建模捕捉特征交互作用。与现有工具相比,X-CRISP在预测单个碱基插入和微同源依赖的删除时,Jensen-Shannon距离(JSD)显著降低(FORECasT数据:0.43 vs 0.47)。通过SHAP值分析首次揭示,删除结果主要受MH与切割位点的距离调控,而非传统认为的GC含量。

研究团队采用三大关键技术:1)基于SIQ工具处理多组学测序数据,统一分析来自FORECasT和inDelphi研究的11,058个小鼠胚胎干细胞(mESC)和4,450个人类HAP1细胞样本;2)设计双损失函数架构(KLD和MSE)分别优化概率分布和数值预测;3)开发分层迁移学习策略(PF0-PF2),通过冻结神经网络不同层数实现模型跨域适应。

模型性能验证
在3954个mESC测试序列中,X-CRISP对MH依赖删除的预测精度(JSD=0.38)显著优于FORECasT(0.40)。对临床关键的移码突变预测,其MSE(0.021)比次优模型降低15%。特别在识别"precision-70%"位点(单突变占比≥70%)时,精确度达0.74,远超inDelphi(0.03)。

机制解析发现
通过400个测试样本的SHAP分析显示:切割位点上游16位的A/T会促进对应碱基插入(SHAP值>0.2),而该位点的C/G则偏好删除。对于MH依赖删除,左边缘每接近切割位点1bp,删除概率提升23%,证实空间邻近性是MH选择的关键决定因素。

跨域适应能力
迁移学习实验表明:预训练模型仅需50个目标样本即可适应新细胞系,在人类U2OS细胞中实现JSD=0.42(直接训练需500样本)。对于DNA修复缺陷的NHEJ-/- mESC,模型通过调整隐藏层权重,成功捕捉到MH依赖删除增加12%的生物学特征。

这项研究通过可解释特征工程和迁移学习的创新结合,首次实现了CRISPR修复结果的跨细胞系精准预测。其揭示的MH位置主导规律为gRNA设计提供了新原则,而仅需微量数据的域适应能力,则解决了罕见病治疗中患者特异性建模的数据瓶颈。该成果发表于《Bioinformatics Advances》,为发展下一代个性化基因编辑疗法奠定了算法基础。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号