CircCode3:基于深度学习和多组学数据融合挖掘可翻译环状RNA的创新计算框架

【字体: 时间:2025年09月12日 来源:Briefings in Bioinformatics 7.7

编辑推荐:

  本研究开发了CircCode3分析流程,整合核糖体测序(Ribo-seq)和质谱(MS)数据,通过深度学习工具DeepCircm6A和DLMSC预测m6A修饰位点和终止密码子可靠性,结合IRESfinder评估内部核糖体进入位点活性,实现了可翻译环状RNA的高精度挖掘及其开放阅读框(ORF)的精准鉴定,为环状RNA编码功能研究提供了全面解决方案。

  

在RNA研究领域,环状RNA(circular RNAs, circRNAs)作为一类特殊的共价闭合环形RNA分子,近年来受到广泛关注。与线性RNA不同,circRNA缺乏5'端帽子和3'端多聚腺苷酸尾结构,通过反向剪接(back-splicing)形成稳定环状结构。早期研究认为circRNA主要作为竞争性内源RNA(ceRNA)发挥作用,但近年研究发现其具备翻译蛋白质/多肽的潜能,这类具有翻译功能的circRNA被称为可翻译环状RNA(translatable circRNAs)。

可翻译circRNA的翻译机制不同于经典模式,主要依赖帽非依赖性翻译途径,包括N6-甲基腺嘌呤(m6A)介导的翻译起始和内部核糖体进入位点(IRES)驱动的翻译起始。例如在人乳头瘤病毒中,circE7通过m6A修饰翻译产生E7癌蛋白;在人类细胞中,Circ-ZNF609和CircTRIM1可通过IRES机制分别翻译产生250和269个氨基酸的蛋白质。这些发现表明可翻译circRNA在肿瘤发生发展中扮演重要调控角色。

然而,当前可翻译circRNA研究面临两大挑战:一是缺乏整合多组学数据的综合分析工具,现有工具如CircPro、CircCode和MstoCirc均存在功能局限;二是ORF定位准确性不足,特别是跨反向剪接位点(BSJ)的ORF鉴定困难。为解决这些问题,陕西师范大学李玉玲教授团队开发了CircCode3分析流程,研究成果发表在《Briefings in Bioinformatics》。

本研究采用多技术融合策略:首先通过Bowtie2比对工具处理Ribo-seq数据,去除线性序列和rRNA污染,利用虚拟基因组策略识别BSJ跨读序列;质谱数据采用MSGFPlus/MaxQuant搜索定制肽段数据库;创新性开发DeepCircm6A深度学习模型(结合CNN-BiLSTM架构)预测circRNA的m6A修饰位点;构建DLMSC模型(三层CNN结构)评估终止密码子可靠性;集成IRESfinder软件评估IRES活性;使用orfipy工具提取跨BSJ的ORF;最后通过模拟数据集(BEERS2生成线性读段,自定义脚本生成circRNA读段)进行系统性能验证。

CircCode3工作流程

基于原有CircCode框架进行功能扩展,构建了支持Ribo-seq和MS数据并行处理的集成化流程。输入数据分别进入不同处理通道:Ribo-seq数据经过线性序列过滤、rRNA去除、BSJ读段筛选;MS数据通过"junction"命令生成候选肽段序列进行数据库搜索。最终获得经实验证据支持的circRNA集合,进而识别所有跨BSJ的ORF,并利用IRESfinder、DeepCircm6A和DLMSC评估其翻译潜能。输出结果包含比对读段、检测肽段、m6A修饰评估、ORF定位等详细信息,并提供可视化功能。

DeepCircm6A模型构建

为评估circRNA的m6A修饰潜能,开发了基于深度学习的DeepCircm6A工具。模型采用双卷积神经网络(CNN)层(卷积核尺寸分别为1×12和1×6),每层后接批归一化(BatchNorm)和ReLU激活层,输出接入双向长短期记忆网络(BiLSTM),最后通过两个全连接层(FC)生成分类结果。比较三种编码模式(One-hot、NCP、EIIP)发现组合使用效果最优。五折交叉验证显示所有评估指标(准确度、特异性、召回率、精确度、F1分数、马修斯相关系数)均超过0.93,ROC曲线下面积(AUC)达0.99。在hESC、小鼠和TransCirc数据集测试准确度均大于0.9,且显著优于DeepM6ASeq工具,表明circRNA与线性RNA的m6A修饰模式存在差异。

DLMSC模型构建

针对终止密码子评估需求,开发了深度学习终止密码子模型(DLMSC)。模型包含三个CNN层(滤波器数量128/32/32,卷积核尺寸8/6/4),第三CNN层输出扁平化后经dropout层(比率0.5)处理,最后通过FC层输出预测结果。训练集表现优异:准确度0.9354、灵敏度0.9299、精确度0.9403、F1分数0.9351、MCC 0.8709,AUC达0.97。使用RiboCirc小鼠数据进行独立测试,准确度0.901、灵敏度0.867、精确度0.931、F1分数0.898、MCC 0.805,证明模型具有良好的跨物种适用性。

模拟数据性能评估

通过BEERS2模拟器生成线性转录本读段,从circBase数据库选择人类circRNA序列生成BSJ跨读序列,构建包含六组数据的模拟数据集。五折交叉验证表明,CircCode3在除召回率外所有指标上均优于CircCode,假阳性率显著降低(准确度0.9973 vs 0.9655,精确度0.9968 vs 0.9355),证实其在复杂测序数据中区分可翻译circRNA的高可靠性。

主要功能模块

CircCode3提供六大核心模块:Ribo模块处理Ribo-seq数据,自动执行线性序列去除、rRNA过滤、BSJ读段筛选和ORF评估;MS模块处理质谱数据,生成候选肽段数据库并进行肽段筛选;Both模块支持Ribo-seq和MS数据同步输入与整合分析;DeepCircm6A模块预测序列中腺嘌呤m6A修饰可能性(支持线性和环状模式);DLMSC模块基于终止密码子评估ORF可靠性;Draw模块生成结果可视化图形。

动植物数据应用

利用人类和拟南芥数据集验证工具实用性。在人类Ribo-seq数据集PRJNA275386中鉴定295个可翻译circRNA;MS数据集PXD041316中发现2993个可翻译circRNA。拟南芥Ribo-seq数据集PRJNA594648识别610个可翻译circRNA;MS数据集PXD022880鉴定2643个。交叉验证发现16个人类circRNA和44个拟南芥circRNA在两种数据类型中均被检测到。使用CSCD数据库人类正常染色体X circRNA数据验证,在PRJNA275386数据集中识别816个circRNA,其中204个在对应MS数据中得到验证。

研究结论表明,CircCode3通过整合直接(Ribo-seq、MS)和间接(m6A修饰、IRES活性、终止密码子评估)证据,显著提高了可翻译circRNA鉴定的准确性和可靠性。工具采用模块化设计,支持用户根据研究需求灵活选择分析模块,为circRNA编码功能研究提供了全面解决方案。

讨论部分指出,尽管可翻译circRNA研究取得重要进展,当前高通量测序技术仍存在局限性:一是证据类型覆盖范围较TransCirc等综合数据库有限;二是缺乏有效消除Ribo-seq和MS数据噪声的量化方法。这些挑战亟待解决以提升可翻译circRNA发现的准确性。CircCode3的推出为研究人员提供了针对特定数据集进行定制化分析的能力,弥补了数据库固定数据集的局限性,特别在跨物种分析和机制研究方面展现强大应用潜力。

该研究得到国家自然科学基金(32370297、32200236、31770333)和陕西省自然科学基金(2023-JC-YB-161、2022JQ-218)资助。CircCode3以GPL许可证开源,代码托管于GitHub平台(https://github.com/Lilab-SNNU/CircCode3),配套详细说明文档指导安装配置和基础使用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号