CIRI3:突破环形RNA检测瓶颈,实现海量RNA测序数据的高效精准分析

【字体: 时间:2025年10月02日 来源:Nature Biotechnology 41.7

编辑推荐:

  本研究针对环形RNA(circRNA)检测工具在大规模RNA测序数据中存在的计算效率低、准确性不足等问题,开发了新一代算法CIRI3。该工具通过动态多线程任务分区和阻断搜索策略,将运行速度提升一个数量级,同时显著提高检测精度。研究人员应用CIRI3分析了2,535个癌症相关样本,构建了环形RNA生物标志物网络和预训练模型,为癌症诊断和circRNA功能研究提供了重要资源。

  
环形RNA(circular RNAs, circRNAs)是一类具有共价闭合环状结构的非编码RNA分子,近年来被发现参与多种细胞过程调控,包括信号通路调节、miRNA和RNA结合蛋白的隔离、基因转录启动、mRNA翻译抑制以及蛋白质降解促进等。随着RNA测序(RNA-seq)技术的快速发展,大规模RNA-seq数据集迅速积累,为circRNA研究提供了前所未有的机遇。然而,当前circRNA检测方法在面对海量数据时存在明显局限性——计算效率低下、内存需求巨大,且由于circRNA相对于mRNA的低丰度特性以及不同RNA-seq队列间的强批次效应,其准确量化仍然面临挑战。
为了突破这些技术瓶颈,研究团队开发了CIRI3这一专门用于大规模circRNA检测和表征的工具。作为CIRI系列工具的新成员,CCIRI3针对多样本比对结果进行了优化,在量化准确性、运行效率和内存使用方面都有显著提升。其创新之处包括 robust identification of intronic self-ligated circRNAs(内含子自连接环形RNA的稳健识别)和针对用户定义circRNA列表的靶向量化功能。
在技术方法上,研究人员使用BWA或STAR比对器处理RNA-seq数据,采用动态多线程任务分区策略优化计算资源分配,运用阻断搜索方法和多种子匹配与最大似然估计(MLE)相结合的方式恢复junction reads,并通过Smith-Waterman局部序列比对提高分类准确性。团队收集了2,535个人类癌症和正常组织样本的总RNA-seq数据,使用CIRI3算法进行circRNA鉴定,并利用深度学习模型和LightGBM分类器进行癌症分类和生物标志物筛选。
高性能circRNA检测工具的开发
通过与其他五种常用工具(find_circ、KNIFE、CIRCexplorer3、DCC和CIRI2)的比较,CIRI3在Hs68细胞系样本中表现出更高的推定阳性率和更低的假阳性率。虽然CIRI2与CIRI3有大量重叠,但CIRI3独特检测到的109个circRNA中有54个是推定阳性。在所有工具中,CIRI3实现了最高的灵敏度和精确度(F1得分为0.74),并且在每个工具独特检测到的circRNA中,CIRI3检测到的推定阳性最多。
内含子自连接circRNA的发现
CIRI3能够检测到其他短读长工具无法检测到的内含子自连接circRNA。在来自五个物种的肝脏RNA-seq样本中,CIRI3识别出59个此类事件,其中在负鼠中检测到的16个全部在RNase R处理后富集。经RNase R验证的内含子自连接circRNA长度主要在300-800bp之间,90%源自蛋白质编码基因。在前列腺癌队列(n=181)中,CIRI3检测到2,286个内含子自连接circRNA,这些circRNA源自的内含子显著短于未参与circRNA形成的内含子,表明较短的内含子更容易发生反向剪接和circRNA生物合成。
量化准确性的评估
通过分析模拟配对末端RNA-seq数据集(覆盖度20-100x),CIRI3在BSJ读段计数方面的Pearson相关系数(PCC)始终高于0.983,平均为0.990,在所有覆盖水平上都优于其他工具。这种相对于CIRI2(平均PCC为0.954)的改进归因于Smith-Waterman比对的整合,能够恢复CIRI2遗漏的BSJ读段。此外,CIRI3准确量化了FSJ读段和连接点比率,分别实现了0.977和0.980的平均PCC值。在均方根误差(r.m.s.e.)方面,CIRI3在所有覆盖水平上都表现出最低的错误率,进一步证实了其卓越的量化准确性。
计算效率的突破
CIRI3处理2.95亿读段的SW480数据集仅需0.25小时,而其他工具需要2.0-37.1小时(使用25线程),速度慢8-149倍。内存使用方面,CIRCexplorer3、find_circ、DCC、CIRI2和KNIFE分别需要27.7、34.9、50.8、139.2和205.1GB的内存,大大超过了CIRI3所需的12.2GB。在大型数据分析中,CIRI3是唯一能够在24小时内处理4,800亿读段(太字节级别)数据的工具,并且成功处理了来自RNA Atlas的39.2万亿读段(21TB SAM文件),峰值内存使用仅为45.85GB。
BSJ比率作为稳健生物标志物的验证
研究发现,基于BSJ读段计数无法按组织类型区分样本,而circRNA连接点比率则能根据组织来源清晰地对样本进行聚类,且批次效应最小。在肝癌生物标志物研究中,基于连接点比率识别出的差异剪接circRNA与基于读段计数识别出的差异表达circRNA仅有18个重叠,这两组circRNA的宿主基因在 distinct biologically relevant pathways(不同的生物相关通路)中显著富集,表明BSJ比率捕获了一组具有潜在临床相关性的不同circRNA。
CIRIonco数据库的构建与应用
研究人员收集了2,535个总RNA-seq数据,涵盖30种癌症类型,识别出470,641个circRNA,每个样本平均检测到8,245个。结直肠癌(CRC)、三阴性乳腺癌(TNBC)和多形性胶质母细胞瘤(GBM)样本表现出最高数量的circRNA,表明这些癌症类型中存在丰富的circRNA表达。基于此数据集构建的CIRIonco数据库(https://ngdc.cncb.ac.cn/cirionco)与现有circRNA数据库比较,有294,692个circRNA(62.6%)重叠,但CIRIonco独有的BSJ更多位于内含子区域,表明CIRI3在识别这些先前代表性不足的circRNA方面具有高灵敏度。
癌症分类与生物标志物网络
使用癌症和正常样本之间差异剪接的circRNA作为输入特征,训练了一个五层全连接深度神经网络(预训练模型)用于样本分类。该预训练模型在验证集和测试集上都表现良好,总体准确率和AUROC分别超过88%和0.91。在未包含在训练集中的结肠组织样本的泛化测试中,达到了88%的准确率和0.94的AUROC,表明对未见组织类型的强大性能。进一步使用circRNA作为生物标志物,在系统、组织和疾病水平上对癌症样本进行分层,构建了分层树,并使用差异剪接的circRNA作为每个层次的候选标记。LightGBM分类器在系统和组织水平上实现了0.959的平均精确度,在疾病水平上实现了0.974的平均精确度,进一步证明了基于BSJ比率的circRNA作为稳健生物标志物的强大潜力。
本研究开发的CIRI3工具解决了circRNA检测中的多个关键挑战,其可扩展设计使其能够高效处理队列规模的数据,并能够发现缺乏典型GT-AG剪接位点的未被充分探索的circRNA。CIRI3通过提供准确的circRNA识别和量化,促进了多种下游分析。虽然CIRI3并非专门为校正由RNA完整性值变化或circRNA测序方案变异引起的批次效应而设计,但研究表明BSJ比率作为circRNA生物标志物识别具有高可靠性和低可变性。CIRIonco数据库为癌症相关circRNA研究和功能探索提供了广泛且可扩展的资源,为其在癌症分型和精准诊断中的应用奠定了坚实基础。
这项研究的成功不仅提供了circRNA研究的重要工具和资源,更开辟了环形RNA在临床诊断和治疗应用中的新途径,为未来癌症精准医疗提供了新的生物标志物资源和分析框架。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号