shRNAI:一种用于设计高效shRNA的深度神经网络
《Molecular Therapy Nucleic Acids》:shRNAI: A deep neural network for the design of highly potent shRNAs
【字体:
大
中
小
】
时间:2025年10月28日
来源:Molecular Therapy Nucleic Acids 6.1
编辑推荐:
shRNAmir通过内源性miRNA加工途径实现稳定基因沉默,但其gRNA设计仍存在挑战。本文提出基于卷积神经网络的shRNAI+模型,整合gRNA序列、目标位点上下文及Drosha酶底物剩余量预测,显著提升预测精度(Spearman相关系数达0.901)。实验验证显示,该模型在TTR、ALAS1、PCSK9等靶点的RNA沉默效率预测中优于现有算法,且设计的shRNAmir在Huh7细胞中knockdown效率达75%,接近FDA批准药物vutrisiran水平。
在现代生物医学研究中,RNA干扰(RNAi)技术已经成为一种重要的工具,用于探究基因功能和开发治疗策略。这一技术的核心在于小干扰RNA(siRNA)和短发夹RNA(shRNA)的使用,它们通过靶向特定的mRNA实现基因表达的调控。而miRNA-模仿短发夹RNA(shRNAmir)则利用内源性miRNA生物合成途径,展现出对靶基因更稳定的敲低效果。然而,尽管已有多种算法用于优化shRNAmir的引导RNA(gRNA)序列,但这些算法往往忽略了gRNA序列之外的生物学特征,例如处理效率和靶点上下文信息。为了解决这一问题,研究团队开发了shRNAI,这是一种卷积神经网络(CNN)模型,能够更准确地预测高效shRNAmir的gRNA序列。通过引入处理效率和靶点上下文等特征,进一步优化后的shRNAI+模型在性能上有了显著提升,表现出优于以往算法的预测能力。这些模型不仅在公开数据集上表现优异,而且在实验验证中也展示了良好的效果,为RNAi治疗药物的设计提供了有力支持。
shRNAI模型的构建基于大规模的shRNAmir数据集,这些数据集来自不同的平行报告实验。研究团队通过比较多个数据集的组合,选择了S和M数据集作为最终的训练数据集,而T和R数据集以及mir-E背骨的数据集则作为独立测试集。模型的性能评估采用Spearman相关系数,通过比较预测值与实验观察值之间的相关性来衡量其准确性。实验结果表明,shRNAI模型在预测gRNA效率方面表现优异,且通过引入处理效率和靶点上下文信息,shRNAI+模型在多个数据集和实验条件下均显示出更出色的预测能力。
在实验验证方面,研究团队选择了六个基因进行测试,包括PTEN、BAP1、NF2、AXIN1、PBRM1和RELA,以及一个额外的靶点基因UPF1。通过将这些基因的shRNAmir与FDA批准的siRNA药物进行比较,验证了shRNAI+模型的预测能力。结果显示,模型预测的高效shRNAmir在RNA水平上表现出良好的敲低效果,这表明shRNAI+模型能够有效识别具有高效率的靶点序列。此外,研究团队还设计了基于shRNAI+模型的siRNA药物候选物,并通过实验验证其有效性。这些候选物在Huh7细胞中表现出超过90%的靶基因mRNA敲低效果,显示出模型在药物开发中的应用潜力。
在模型性能评估中,shRNAI+在多个实验数据集和不同的生物处理条件下均表现出优越的预测能力。通过对比不同模型的预测结果,发现shRNAI+在预测RNAi效率方面具有显著优势,这表明模型能够有效捕捉与RNAi效果相关的生物学特征。然而,模型仍存在一些局限性,例如主要依赖于体外数据进行训练,尚未在体内进行验证;训练数据主要来源于特定的shRNAmir背骨(如miR-30和miR-E),这可能限制其对其他背骨设计的泛化能力;此外,模型未能考虑细胞类型特异性因素,如mRNA可及性、RNA结合蛋白的相互作用以及内源性处理机器的差异;最后,模型还未能预测和控制潜在的脱靶效应,这对确保RNAi治疗的特异性至关重要。
为了提高模型的泛化能力,研究团队建议未来的工作应扩展到体内数据的收集,并且应利用更广泛的数据集,以涵盖不同背骨设计的shRNAmir。同时,还需要进一步探索细胞类型特异性因素对shRNAmir效率的影响。此外,开发能够预测和控制脱靶效应的模型将有助于提高RNAi治疗的安全性和有效性。
shRNAI模型的构建基于CNN结构,包括三个卷积层,每个卷积层的过滤器数量分别为64、128和256,列宽分别为3、5和7,行宽固定为1。在第一个卷积层中,行宽被设置为4以覆盖所有4个核苷酸。模型通过批量归一化和指数线性单元(ELU)激活函数进行优化。为了提高模型的预测能力,shRNAI+模型进一步引入了50个核苷酸的靶点序列,包括gRNA互补区及其上下文信息。此外,模型还整合了预测的Drosha底物过剩作为标量特征。通过这些改进,shRNAI+模型在多个数据集和实验条件下均表现出卓越的性能。
在预测Drosha底物过剩方面,研究团队构建了另一个CNN模型,该模型输入由两个连续的序列组成,一个序列覆盖5′端Drosha切割位点上下游的27至29个核苷酸,另一个序列覆盖3′端Drosha切割位点上下游的31至25个核苷酸,并将后者反转后与前者拼接。通过这种方式,模型能够更准确地预测Drosha处理效率。此外,研究团队还利用RNAplfold工具计算靶点序列的结构可及性,通过附加上下文序列并折叠整个60个核苷酸的序列,提取出靶点序列所有位置的未配对概率,以评估其生物活性。
在实验验证中,研究团队使用了多种细胞系,包括HEK293T、HeLa和Huh7细胞,以评估shRNAI模型的预测结果。通过将shRNAmir克隆到基于mir-E的慢病毒载体中,并在HeLa细胞中进行转导和筛选,验证了模型预测的gRNA效率。此外,通过RT-qPCR和Western blot实验,进一步评估了shRNAI模型在不同条件下的性能。结果显示,shRNAI+模型在预测gRNA效率方面具有显著优势,特别是在体内条件下,其性能表现更为稳定。
在siRNA药物候选物的设计中,研究团队通过shRNAI+模型识别了潜在的高效gRNA序列,并基于这些序列设计了相应的siRNA药物。这些siRNA药物在Huh7细胞中表现出良好的靶基因mRNA敲低效果,显示出模型在药物开发中的应用价值。然而,研究团队也指出,尽管shRNAI+模型在预测gRNA效率方面表现优异,但其在体内条件下的表现尚未得到验证,这可能是未来研究的一个重要方向。
总的来说,shRNAI模型的开发为RNAi治疗药物的设计和优化提供了新的思路和工具。通过引入深度学习技术,模型能够更全面地捕捉影响shRNAmir效率的生物学特征,从而提高预测的准确性。此外,模型的泛化能力和对脱靶效应的预测能力还有待进一步提升,这将有助于推动RNAi技术在生物医学领域的广泛应用。研究团队的成果不仅为RNAi研究提供了重要的方法论支持,也为未来药物开发和基因治疗研究提供了新的可能性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号