UniSplicer:基于深度学习的跨物种剪接位点精准预测与可变剪接调控研究

《Plant Communications》:UniSplicer: a deep learning framework for accurate splice-site prediction and splice-altering mutation detection across diverse taxa

【字体: 时间:2026年01月01日 来源:Plant Communications 11.6

编辑推荐:

  本研究针对现有剪接位点预测工具在非模式物种中准确性不足的问题,开发了基于CNN-BiLSTM-Attention混合架构的深度学习框架UniSplicer。该模型通过迁移学习策略,在拟南芥、水稻、人类等物种中实现了>98%的Top-k准确率,显著优于SpliceAI等现有工具。研究证实UniSplicer可精准预测剪接位点突变效应,并在1001个拟南芥生态型中发现与环境适应相关的剪接变异,为基因组注释和适应性进化研究提供了新工具。

  
在真核生物中,基因表达的精妙调控如同交响乐团的演奏,而RNA剪接(RNA splicing)则是其中至关重要的乐章。这一过程通过精确切除前体mRNA(pre-mRNA)中的非编码内含子,将外显子连接成成熟的mRNA,从而决定最终蛋白质的组成和功能。剪接位点的准确识别是理解基因结构和功能的基础,然而现有剪接位点预测工具在面对物种多样性时却面临严峻挑战。
传统基因注释方法严重依赖于高质量基因组组装和大量转录组数据,这在许多非模式物种中成为瓶颈。即便在拟南芥(Arabidopsis thaliana)这样研究深入的模式植物中,基因组注释仍存在错误。更令人困扰的是,不同物种间剪接位点侧翼序列特征存在显著差异,使得通用型预测模型的开发异常困难。现有深度学习方法如SpliceAI、DeepSplicer等虽然在人类等特定物种中表现良好,但难以推广到其他物种,特别是在数据有限的非模式物种中。
为了突破这一瓶颈,北京林业大学高宏波教授团队开发了UniSplicer——一个基于深度学习的通用剪接位点预测框架。这项发表于《Plant Communications》的研究,通过创新的模型架构和迁移学习策略,实现了跨物种的高精度剪接位点预测,为基因组学和进化生物学研究提供了强大工具。
研究团队采用了几项关键技术方法:首先构建了结合卷积神经网络(CNN)、双向长短期记忆网络(Bi-LSTM)和自注意力机制(self-attention)的混合架构,有效捕捉序列特征和长程依赖关系;其次开发了基于转录组数据验证的高质量训练数据集筛选流程;最重要的是建立了迁移学习策略,使用拟南芥(TAIR10)基模型快速适配到其他物种。研究还利用来自NCBI数据库的多组织RNA-seq数据和1001个拟南芥基因组计划的生态型资源进行大规模验证。
UniSplicer拟南芥模型准确预测剪接位点
研究团队首先使用拟南芥参考基因组(TAIR10)和公共数据库中的多组织转录组数据训练了四个不同输入长度(600nt、1200nt、1800nt、2400nt)的基模型。600nt模型在计算效率和性能间取得最佳平衡,整体准确率达到99.95%,平衡准确率为98.31%。在组成型剪接(CS)和可变剪接(AS)转录本测试集上,Top-k准确率分别达到99.4%和95.5%。消融研究表明,Bi-LSTM层对性能提升贡献最大,其次是CNN层,而注意力层主要起特征重加权作用。
通过迁移学习扩展UniSplicer的跨物种适用性
为解决不同物种剪接位点序列特征差异的挑战,研究探索了迁移学习策略。在水稻(Oryza sativa)、黑腹果蝇(Drosophila melanogaster)、秀丽隐杆线虫(Caenorhabditis elegans)和人类(Homo sapiens)四个物种中,基于拟南芥模型的迁移学习比从头训练更快达到最优性能,且验证损失更低。迁移学习模型在所有测试物种中均达到或超过从头训练模型的准确率,显著优于基模型。
UniSplicer物种特异性模型在系统发育远缘物种中实现高精度预测
研究将UniSplicer扩展到从真菌到后生动物的广泛物种。在莱茵衣藻(Chlamydomonas reinhardtii)等GC含量高的物种中,基模型性能显著下降(Top-k准确率仅18.98%),而迁移学习后提升至99.43%。序列特征分析发现不同物种剪接位点侧翼序列存在明显组成差异,如拟南芥富含AT而衣藻富含GC,这解释了物种特异性训练的必要性。
家族特异性模型在降低训练成本的同时实现高预测精度
为避免为每个物种单独训练的高成本,研究探索了家族特异性模型策略。以拟南芥代表十字花科(Brassicaceae),并为蔷薇科(Rosaceae)、豆科(Fabaceae)等六个植物家族训练特异性模型。家族特异性模型在21个植物物种测试中平均Top-k准确率达到98.48%(CS)和94.51%(AS),显著优于跨家族模型,表明其能有效捕捉家族内保守的序列特征。
使用UniSplicer家族特异性模型重新评估七个植物物种的注释内含子
研究设定0.5为预测分数阈值,对七个代表性植物物种的注释内含子进行重新评估。发现约1-3%的短内含子(<1000bp)被预测为不可靠,而长内含子(>1000bp)不可靠比例显著增加。RNA-seq验证显示,UniSplicer预测的不可靠剪接位点验证率约90%,优于SpliceAI(80%)和Spliceator(75%)。PCR和Sanger测序进一步证实了这些预测。
使用UniSplicer拟南芥模型准确预测拟南芥突变体中的突变诱导异常剪接事件
研究验证了UniSplicer在预测突变诱导剪接异常方面的能力。在A5SS(alternative 5' splice site)和A3SS(alternative 3' splice site)事件中,模型能准确预测隐蔽剪接位点(cryptic splice site)的激活;在外显子跳跃(exon skipping)事件中,不仅受影响剪接位点分数下降,相邻内含子的剪接位点分数也降低,这与外显子定义(exon definition)机制一致。AtJHS1(AT1G08840)案例研究进一步证明了模型预测复杂A3SS事件的能力。
准确预测拟南芥生态型中影响RNA剪接的自然发生突变揭示区域模式
研究分析了1001个拟南芥基因组计划中436个生态型的剪接位点变异。预测分数变化>0.7的变异验证率达到84.7%。基因本体(Gene Ontology, GO)富集分析显示,剪接位点变异相关基因显著富集于应激响应和发育过程。地理分布分析发现,瑞典(SWE)和俄罗斯(RUS)等高纬度地区生态型中剪接变异比例显著高于低纬度地区。
剪接位点改变变异在两个基因中显示环境选择证据并可能促进高纬度生态型适应
通过固定指数(FST)和群体分支统计(PBS)分析,发现AT2G32150和AT2G32340基因中的剪接位点变异在瑞典生态型中受到强烈选择。AT2G32150(XMPP,xanthosine monophosphate specific phosphatase)第二个内含子的供体剪接位点突变(GT→GC)导致内含子滞留(intron retention),可能通过无义介导的mRNA降解(nonsense-mediated mRNA decay, NMD)调控ABA响应。AT2G32340(TRB2,Telomere Repeat Binding 2)的供体剪接位点突变(GT→CT)激活了下游隐蔽剪接位点,可能影响线粒体自噬(mitophagy)调控。
UniSplicer研究的重要意义在于建立了跨物种剪接位点预测的新范式。其混合架构有效平衡了局部特征提取和长程依赖建模,而迁移学习策略解决了非模式物种数据稀缺的难题。研究不仅提供了精准的预测工具,更揭示了剪接调控在环境适应中的重要作用。发现高纬度地区生态型中剪接变异的富集,为理解物种适应性进化提供了新视角。未来,将UniSplicer整合到基因组注释流程中,有望显著提升非模式物种的注释质量,而其预测剪接变异影响的能力,将在功能基因组学和作物改良中发挥重要作用。尽管模型的可解释性仍是挑战,但UniSplicer无疑为剪接调控研究和基因组学应用开辟了新道路。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号