AQUARIUM-HB:面向人类血液环状RNA分析的高精度生物信息学流程及其在COVID-19生物标志物研究中的应用

【字体: 时间:2025年09月17日 来源:Non-coding RNA Research 4.7

编辑推荐:

  本研究针对血液circRNA识别与定量中的技术难题,开发了AQUARIUM-HB流程,整合CIRI-full、FLcircAS和IsoCirc等多源数据重建全长circRNA,通过sailfish-cir实现环状与线性转录本的同步定量。应用该流程分析COVID-19患者血液RNA-seq数据,成功构建包含33万余条全长circRNA的参考集,揭示circRNA与线性RNA表达的差异调控模式,为血液circRNA作为疾病生物标志物提供新见解。

  

在精准医疗时代,液体活检技术因其非侵入性和实时监测优势成为疾病诊断研究的热点。血液作为最易获取的液体活检样本,蕴含大量具有临床价值的分子标志物,其中环状RNA(circular RNA, circRNA)因其特殊闭合环状结构和较高稳定性受到广泛关注。研究表明,血液circRNA在细胞间通讯和疾病进展中发挥关键作用,特别是在癌症、感染性疾病等领域展现出巨大应用潜力。然而,由于circRNA表达量较低且结构特殊,从高通量RNA测序(RNA-seq)数据中准确识别、定量和注释circRNA仍面临重大技术挑战。

目前circRNA研究主要依赖基于反向剪接连接位点(back-splice junction, BSJ)的定量方法,但这种方法可能因测序读长覆盖不均和circRNA低表达特性导致定量偏差。虽然已有CIRIquant、CircExplorer等计算工具,但它们在全长circRNA重构和血液特异性表达解析方面存在局限。此外,现有circRNA数据库(如FLcircAS、IsoCirc)虽包含大量全长circRNA信息,但尚未有效整合到血液circRNA分析流程中。如何综合利用长读长测序数据与短读长RNA-seq数据构建高质量血液circRNA参考集,并实现circRNA与线性RNA的同步准确定量,成为当前circRNA生物信息学分析的关键瓶颈。

针对这些挑战,南京中医药大学人工智能与信息技术学院的研究团队在《Non-coding RNA Research》发表了最新研究成果,开发了AQUARIUM-HB(A bioinformatics pipeline for human blood circular RNA analysis)流程。该研究通过整合牛津纳米孔技术(ONT)长读长数据与短读长RNA-seq数据,建立了系统的血液circRNA识别、注释、定量和分析框架,为血液circRNA研究提供了全面解决方案。

研究采用多个关键技术方法:利用CIRI-full从rRNA去除的血液RNA-seq数据中识别circRNA并进行全长重构;整合FLcircAS和IsoCirc数据库中的全长circRNA信息优化重构过程;使用sailfish-cir实现环状与线性转录本的同步定量(TPM值);采用DESeq2进行差异表达分析,并通过GO、KEGG、Reactome和GSEA进行功能富集分析。应用69例COVID-19患者血液RNA-seq数据(GEO accession: GSE172114)进行方法验证和实际应用。

识别人类血液circRNA

研究人员首先从FLcircAS和IsoCirc数据库中分别获得275,165和31,998条血液来源circRNA,其中FLcircAS中14.8%为血液来源,IsoCirc中29.9%为血液来源。在COVID-19数据集分析中,CIRI-full共识别128,342条circRNA,其中66,837条(52.1%)实现完全重构,47,102条(36.7%)部分重构,14,403条(11.2%)仅识别BSJ位点。通过优先级策略(Priority-1至Priority-3),61,505条不完全重构circRNA得到补充,其中55.3%使用血液全长circRNA数据库补充,10%使用非血液组织circRNA补充,34.6%使用人类基因组注释补充。

注释人类血液circRNA

对识别出的circRNA进行系统注释显示,91.5%为外显子circRNA,大部分含5个或更少外显子,长度多小于1,000bp。76,571条circRNA(85.7%)在少于5个样本中检测到。按置信度分级:30,900条(46.2%)Level-1 circRNA(完全重构且在≥5个样本中检测到或存在于数据库中),35,937条Level-2(新发现血液circRNA),40,195条(65.4%)Level-3(使用数据库补充),21,310条Level-4(使用基因组注释补充)。这些circRNA涉及9,308个人类基因,其中397个基因呈现高水平可变剪接(>50个转录本),功能富集显示这些基因显著参与细胞周期调控、泛素介导的蛋白水解和趋化因子信号通路。

circRNA表达谱分析

表达分析显示circRNA整体表达水平低于线性RNA,在非重症和重症COVID-19患者中分别占总RNA表达的3.3%和3.1%。circRNA与对应线性RNA在基因水平的表达变化呈显著正相关(R=0.26, P<2.2×10-16),表明大部分circRNA表达变化受其宿主基因转录调控影响。然而,部分circRNA呈现剪接依赖性表达调控,其表达变化独立于父基因调控。差异表达circRNA的功能富集模式与线性RNA显著不同,提示circRNA在COVID-19疾病严重程度中扮演独特生物学角色。

构建人类血液全长circRNA参考集

研究整合FLcircAS和IsoCirc数据库中的血液全长circRNA,形成包含276,179条circRNA的初始参考集。从COVID-19数据集中新识别66,837条全长circRNA,其中11,472条已存在于数据库中,55,365条为新发现血液circRNA。最终构建的参考集包含331,544条全长circRNA,为血液circRNA研究提供坚实基础。

不同工具的识别和定量性能比较

通过模拟数据评估显示,AQUARIUM-HB在isoform水平识别circRNA的覆盖度显著优于AQUARIUM;在BSJ水平与CIRIquant表现相当,但显著优于CircExplorer。表达相关性分析表明,AQUARIUM-HB在isoform和BSJ水平的表达定量与真实值相关性最高,特别是在BSJ水平显著优于其他工具。

研究讨论部分指出,AQUARIUM-HB相比原AQUARIUM流程有多项重要改进:整合长读长数据集提高isoform重构准确性;建立系统性血液来源全长circRNA参考集;提供更完善的isoform结构和功能注释。与CIRIquant、CircExplorer等现有工具相比,AQUARIUM-HB在血液数据集中的isoform完整性和注释质量方面表现更优。

研究也承认当前版本的若干局限性:要求双端测序读长相等;必须使用rRNA去除的RNA-seq数据;依赖外部长读长数据集进行准确isoform重构,在缺乏长读长覆盖的组织或条件下性能可能受限。尽管AQUARIUM-HB已在批量血液RNA-seq数据中得到验证,但其模块化框架也适用于细胞游离RNA-seq数据,未来计划将该流程扩展到细胞游离数据集,以增强其在无创诊断中circRNA生物标志物发现的实用性。

该研究的结论强调,AQUARIUM-HB为人类外周血样本RNA-seq数据中转录本水平的circRNA识别和定量提供了全面解决方案。通过整合 established circRNA数据库与新的RNA-seq数据集发现,建立了高质量血液来源全长circRNA参考集,确保circRNA识别和定量的准确性。在COVID-19患者数据集中的应用展示了其在揭示疾病响应中circRNA独特表达动态方面的潜力。该流程捕捉和定量全长circRNA结构的能力不仅提高了血液circRNA分析的准确性,也为液体活检中circRNA作为生物标志物的探索提供了有力工具。

这项由Shaoxun Yuan、Xue Bai、Linwei Li和Wanjun Gu共同完成的研究,通过开发创新性生物信息学流程,解决了血液circRNA分析中的关键技术难题,为circRNA在疾病诊断和治疗中的应用奠定了重要基础。研究成果的代码已公开提供Shell版本和R包版本,促进学术界的广泛使用和进一步开发。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号