PSQAN:基于长读长RNA测序的生物相关性转录本优先排序新流程

《Bioinformatics Advances》:PSQAN: a pipeline to prioritise novel and biologically relevant transcripts from long-read RNA sequencing

【字体: 时间:2025年11月21日 来源:Bioinformatics Advances 2.8

编辑推荐:

  本研究针对长读长RNA测序(lrRNA-seq)数据分析中面临的数千个新转录本难以优先排序的挑战,开发了PSQAN流程。该工作流通过基因水平的表达标准化(NFLRTi)、直观的转录本分类和多重表达阈值筛选策略,有效识别具有潜在生物学重要性的高置信度转录本。验证显示其优先排序的已知转录本与APPRIS数据库主要异构体高度一致(75%),且新颖编码转录本具有显著编码潜力(p<2.2×10-16)。PSQAN为lrRNA-seq数据的生物学解读提供了重要工具。

  
随着第三代测序技术的迅猛发展,长读长RNA测序(long-read RNA sequencing, lrRNA-seq)已成为解析转录组复杂性的利器。与传统短读长测序相比,lrRNA-seq能够直接获得全长转录本信息,准确量化异构体比例,揭示疾病相关基因的异构体多样性。然而,这项技术也带来了新的挑战——研究人员在每个基因位点往往能检测到数百甚至数千个新型转录本,其中既包含具有生物学功能的稳定转录本,也混杂着部分加工的RNA和剪接噪声。如何从海量数据中筛选出高置信度且具有潜在生物学重要性的转录本,成为制约lrRNA-seq数据解读的关键瓶颈。
以Gustavsson等人针对GBA1和GBAP1基因的研究为例,他们在12个脑区中分别鉴定出2,368和3,083个独特转录本,每个转录本至少由两个全长读长支持。面对如此庞大的数量,研究人员很难区分哪些转录本值得进一步实验验证。尽管现有分析工具如SQANTI3和TALON能够进行转录本表征,但它们缺乏系统的优先排序功能,导致研究成果难以转化为可验证的生物学假设。
针对这一迫切需求,Siddharth Sethi等研究人员在《Bioinformatics Advances》上发表了PSQAN流程,为lrRNA-seq数据的下游分析提供了创新解决方案。PSQAN的核心思想是进行基因层面的综合分析,通过表达量标准化、直观的转录本分类和灵活的过滤策略,使转录本表征结果更加易于解读。
研究团队采用了几项关键技术方法:基于SQANTI3或TALON的转录本表征结果进行基因水平表达标准化,计算归一化全长读长(NFLRTi);根据开放阅读框预测、无义介导的衰变预测和结构分类将转录本重新分为七类;实现基于样本内阈值、平均表达阈值和样本出现比例的多重过滤策略;利用WTC11细胞系PacBio cDNA测序数据(LRGASP项目)进行验证,并与APPRIS数据库标注进行对比分析。

2.1 输入数据

PSQAN设计为在lrRNA-seq数据转录本表征后进行基因水平分析。该流程兼容当前lrRNA-seq分析中最主流的两种工具——SQANTI3和TALON的输出结果。用户需要提供转录本表征文件以及待分析的候选基因列表,即可启动分析流程。

2.2 基因水平转录本表达标准化

传统的lrRNA-seq数据中,转录本表达通常量化为与之关联的全长读长数量。然而,单纯的全长读长计数难以反映转录本在总基因表达中的相对贡献。PSQAN创新性地引入了归一化全长读长(NFLRTi)指标,将每个转录本的表达量计算为总基因转录的百分比。这种标准化不仅强调了转录本使用相对于整体基因输出的重要性,还消除了样本间基因表达绝对差异带来的变异,使转录本使用情况的比较更加可靠。

2.3 异构体类别重新分组

当使用SQANTI3的输出时,PSQAN会将鉴定到的异构体重新分组为七个直观类别:非编码新颖、非编码已知、NMD新颖、NMD已知、编码新颖、编码已知(完全匹配)和编码已知(交替3'/5'端)。这种分类体系综合考虑了转录本的编码潜力、降解可能性和结构特征,为优先排序提供了清晰框架。

2.4 转录本水平过滤

为减少假阳性并识别高置信度转录本,PSQAN实现了两种补充过滤策略:跨所有样本的平均表达量(NFLRT)最小值阈值,以及必须满足每样本表达阈值的最小样本百分比。流程还提供了可视化工具,展示随着表达阈值变化所检测到的转录本数量,帮助研究人员确定合适的NFLRT阈值。在多样本数据集中,PSQAN会为每个样本生成NFLRTi曲线,支持用户考察转录本检测的样本间变异性。

2.5 可视化

PSQAN生成多种可视化结果辅助结果解读,包括各异构体类别中检测到的转录本数量及其归一化表达、按表达排序的转录本分布等。流程还提供生成基因水平HTML报告的选项,汇总所有可视化结果便于集中解读。

3 结果

为评估PSQAN性能,研究团队从LRGASP项目中获取了人类WTC11细胞系的lrRNA-seq数据,使用SQANTI3进行转录本表征后,对随机选择的1,000个基因应用PSQAN流程进行优先排序。
在已知转录本评估方面,PSQAN优先排序的"编码已知"组转录本与APPRIS数据库的主要异构体高度一致。在排名第一的转录本中,75%(479/635)与APPRIS主要异构体("PRINCIPAL:1")匹配,随后在排名第二和第三分别降至39%(63/162)和36%(40/112),到排名第十五时仅为8%(1/12)。这一梯度下降趋势表明PSQAN能有效识别最可能具有生物学重要性的已知转录本。
值得注意的是,APPRIS主要异构体平均仅贡献约51%(NFLR=50.82)的总基因转录,凸显了其他低丰度转录本的潜在功能相关性。这一发现与近期多项研究报道的基因缺乏单一主导转录本的现象相一致。
在新颖转录本评估方面,PSQAN优先排序的"编码新颖"组转录本显示出显著高于阴性对照集("非编码已知"和"非编码新颖")的编码潜力得分(p<2.2×10-16)。RNAsamba分类结果显示,平均90%的"编码新颖"转录本被归类为潜在"编码"型,而"非编码已知"和"非编码新颖"组分别仅为26%和17%,证明PSQAN能有效识别具有强编码潜力的新颖转录本。
PSQAN作为lrRNA-seq数据下游分析的重要工具,通过其独特的归一化方法、直观的异构体分类和全面的可视化系统,显著提升了转录本优先排序的效率和可靠性。该流程不仅帮助研究人员识别高置信度转录本,还为后续实验验证提供了明确方向,有望推动lrRNA-seq技术在转录组学研究中的更广泛应用。特别是在复杂疾病相关基因的转录本多样性研究中,PSQAN的基因中心分析策略将为解析异构体特异性功能提供关键技术支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号