SCALPEL:基于单细胞RNA测序的转录本异构体高精度定量新工具

【字体: 时间:2025年07月12日 来源:Nature Communications 14.7

编辑推荐:

  本研究针对现有单细胞RNA测序(scRNA-seq)方法在转录本异构体定量中灵敏度低、准确性不足的问题,开发了基于Nextflow的工作流程SCALPEL。该工具通过伪组装策略整合相同细胞条形码(CB)和唯一分子标识符(UMI)的读段,解析3'端scRNA-seq数据中的异构体表达。实验验证表明,SCALPEL在合成数据中灵敏度(r≥0.8)和特异性显著优于Sierra、scAPA等工具,成功捕捉小鼠精子发生中的3'UTR长度动态变化(如Smg7基因异构体转换),并揭示神经分化中miRNA调控的异构体特异性表达(如miR-128-5p靶向异构体下调)。其兼容长/短读长配对数据的特点,为单细胞水平转录后调控研究提供新范式。

  

论文解读

在生命科学领域,单细胞RNA测序(scRNA-seq)技术已彻底改变我们对细胞异质性的认知,但大多数方法仅关注基因表达水平,而忽略了转录本异构体的多样性。这一盲区严重制约了对转录后调控机制(如可变多聚腺苷酸化(APA))的理解。APA通过选择不同的多聚腺苷酸化位点(PAS),产生具有不同3'非翻译区(3'UTR)或编码序列的异构体,进而调控mRNA稳定性、定位及翻译效率。然而,现有工具因读段覆盖稀疏性导致的低灵敏度、PAS定位不精准等问题,难以准确量化单细胞水平的异构体表达。

为此,德国癌症研究中心(DKFZ)和海德堡大学的研究团队开发了SCALPEL——一款基于Nextflow的创新型工作流程。该工具利用标准3'端scRNA-seq数据(如10x Genomics、Drop-seq),通过三步模块化设计实现异构体定量:首先整合基因组注释与伪体定量数据构建异构体参考集;其次过滤前体mRNA和内部引物(IP)来源的读段;最后通过期望最大化(EM)算法联合建模UMI读段距离分布,生成单细胞异构体数字基因表达矩阵(iDGE)。研究团队在合成数据和真实数据集(小鼠精子发生、人iPSC分化为神经祖细胞NPC)中验证其性能,并探索其在配对长/短读长数据中的应用。成果发表于《Nature Communications》,为单细胞转录组学研究提供了突破性工具。

关键技术方法

SCALPEL的核心技术包括:1) 注释预处理:截断GENCODE注释中转录本最后600 nt序列,保留3'端差异区域;2) 读段预处理:基于CB和UMI分组读段,过滤内含子区、非注释连接及连续腺苷酸(≥6个)上游的潜在IP位点;3) EM算法定量:利用读段与3'末端的经验距离分布计算概率,通过最大似然估计分配异构体表达量。验证阶段采用合成数据(Splatter模拟)、3'RACE实验、配对长读长(PacBio)数据交叉验证。

研究结果

SCALPEL, a new computational tool for isoform quantification

SCALPEL工作流程将传统scRNA-seq基因表达矩阵分解为异构体表达矩阵(iDGE)(图1a)。其伪组装策略显著提升UMI分配准确性:通过联合建模相同UMI的读段与3'末端的全局距离,解决异构体定量中的模糊性问题(图S1)。

SCALPEL shows accurate quantification of isoforms at single-cell resolution

合成数据集测试表明,SCALPEL预测的异构体丰度与模拟值高度相关(Pearson r≥0.8)(图2d-f)。即使低深度数据集(UMI/异构体数减少50%),仍保持稳健性能。

Benchmark of SCALPEL using synthetic data shows higher sen-sitivity and specificity than other tools

相较于基于峰检测的工具(Sierra、scAPA)和异构体定量工具(scUTRquant),SCALPEL灵敏度最高(图2g-i):在低表达基因中(Q1),其DIU基因检出率(57%)显著优于scUTRquant(19%)。其特异性与工具间一致性达91-95%(图S3g-i),验证了预测可靠性。

SCALPEL predictions on real data are more sensitive and have a high degree of agreement with other tools

在小鼠精子细胞分化数据中,SCALPEL鉴定出51,767个异构体(17,525个基因),DIU基因数量(4,196个)远超其他工具(图S4c-e)。Drop-seq数据(人iPSC→NPC分化)进一步证实其适用性,低深度下仍保持高灵敏度(图S5)。

SCALPEL predictions can be experimentally validated

通过3'RACE验证iPSC/NPC分化中5个预测DIU基因(如EIF1异构体转换),其中3个基因(JPT1等)的异构体表达模式与预测一致(图3e-f),证实SCALPEL的生物学可靠性。

Isoform expression at the single-cell level reflects miRNA function

SCALPEL揭示神经分化中miRNA对异构体的调控:含miR-128-5p等神经相关miRNA靶位点的异构体在NPC中显著下调(FDR<0.05)(图3g),表明APA变化部分受miRNA介导的转录后调控驱动。

SCALPEL isoform quantification recapitulates 3’ UTR shortening during mouse sperm cell differentiation

异构体定量重现精子发生关键事件:1) Smg7基因从长异构体(Smg7-202)向短异构体(Smg7-203)转换(图4f);2) 拟时序分析显示3'UTR整体缩短(图4g),符合已知生物学规律;3) 80%的APA事件仅改变3'UTR长度(串联APA),20%涉及外显子组成变化(图4e)。

Isoform-based analysis identifies novel cell populations during mouse spermatogenesis

高分辨率聚类发现:基于异构体的分析识别出新型圆形精子细胞亚群RS6(图4h),其标志基因富集于纤毛组装(Dnah3)、细胞器组织等通路(图4i),而基因表达分析未能区分该群体。RS6中543个DIU基因(如Msi2)的长异构体上调,提示其在精子成熟中的功能特异性。

SCALPEL improves isoform quantification of novel isoforms predicted using single-cell long-read sequencing

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号