
-
生物通官微
陪你抓住生命科技
跳动的脉搏
单细胞与空间转录组中基于纳米孔长读长测序的可变剪接分析新方法Longcell的开发与应用
【字体: 大 中 小 】 时间:2025年07月20日 来源:Nature Communications 14.7
编辑推荐:
本研究针对单细胞和空间转录组测序中纳米孔长读长数据存在的技术难题,开发了名为Longcell的生物信息学分析流程。研究人员通过创新的UMI(Unique Molecular Identifier)纠错算法和剪接异构体定量模型,解决了纳米孔测序高错误率导致的细胞条形码和UMI识别困难、读长截断和比对错误等问题。该研究在结直肠癌肝转移、小鼠胚胎脑等多个数据集验证了方法的准确性,揭示了高表达基因普遍存在显著的细胞内剪接异质性,并成功应用于剪切因子调控靶点的鉴定。这一成果为单细胞和空间分辨率下的可变剪接研究提供了重要工具。
在基因表达调控的复杂交响乐中,可变剪接(Alternative Splicing)如同一位技艺高超的编曲家,能让单个基因演奏出多种"旋律"——产生不同的转录本异构体(Isoform)。这种机制影响着90%以上的人类多外显子基因,在细胞分化、肿瘤发生和神经系统发育等过程中扮演关键角色。然而,传统短读长单细胞RNA测序(scRNA-seq)只能捕捉转录本的3'或5'末端,就像只听歌曲片段难以还原整首乐曲;而现有的长读长测序技术又面临准确率低、读长截断等技术瓶颈,特别是在单细胞和空间转录组研究中,纳米孔(Nanopore)测序的高错误率严重干扰了细胞条形码和UMI的识别,导致剪接异构体定量失真。
来自斯坦福大学医学院(Stanford University School of Medicine)的研究团队在《Nature Communications》发表了突破性解决方案。他们开发的Longcell分析流程,通过四项核心技术革新:基于迭代聚类算法的UMI纠错、元异构体组(Meta-isoform group)划分、UMI簇内比对错误校正以及自适应UMI簇修剪,将纳米孔长读长数据的单细胞异构体定量准确性提升至Spearman相关系数0.85以上。该研究不仅提供了可靠的计算工具,更揭示了高表达基因中普遍存在的细胞内剪接异质性现象——这与既往认为"单个细胞通常只表达一种主要异构体"的认知形成鲜明对比。
关键技术方法包括:(1)基于Needleman-Wunsch评分的UMI迭代聚类算法,有效校正测序错误导致的UMI分散现象;(2)结合UMI信息的比对错误校正策略,将构成性外显子的平均PSI(Percent-Spliced-In)值从0.67提升至0.92;(3)基于Beta-Binomial模型的单细胞剪接异质性量化框架,可区分细胞内(Intra-cell)与细胞间(Inter-cell)的剪接变异;(4)针对空间转录组数据的差异剪接分析方法,在鼠嗅脑切片中鉴定出312个层间差异剪接位点。
研究结果部分的重要发现包括:
"单细胞异构体定量"部分证实,在模拟数据和真实数据集(Jurkat细胞系和小鼠嗅球Visium数据)的基准测试中,Longcell的异构体定量与金标准的相关性(Spearman 0.85)显著优于FLAMES、Sicelore2等现有方法。特别是在处理R10平台数据时,对PacBio Isoseq结果的相关系数提升达8.72%。
"不完全注释的偏差"部分指出,传统基于参考转录本的定量方法在存在未注释异构体时会产生系统性偏差。以VIM基因为例,不同方法对VIM-201、VIM-206和VIM-209异构体的定量结果存在显著分歧,凸显了Longcell采用元剪接位点(Meta-splice site)分析策略的优势。
"空间和单细胞数据中的剪接变异量化"部分通过结直肠癌肝转移(CRCLM)样本发现,88个高可信度meta剪接位点中大多数呈现低?值(平均0.21),表明高表达基因更倾向于在单个细胞内共表达多种异构体。典型如RBIS基因的两个异构体在肿瘤上皮细胞中保持1:1的稳定比例,而MYL6基因则展示出细胞类型特异的异构体转换(?=0.89)。
"剪接调控因子靶点鉴定"部分在Jurkat细胞CRISPR筛选实验中,通过Longcell分析发现了PCBP2促进DGUOK外显子3/4保留(FDR=2.16×10-7)、CELF2调控ARHGEF1外显子14/15 skipping(FDR=3.77×10-9)等新型调控关系,并通过靶向测序验证了这些发现。
讨论部分强调,该研究建立的单细胞剪接异质性量化框架(?指标)为解析转录调控提供了新维度。在应用层面,Longcell成功应用于:(1)发现小鼠嗅球Plp1基因的层间异构体转换;(2)揭示神经分化过程中Pkm基因外显子9保留率的连续变化规律;(3)鉴定剪切因子HNRNPLL对PTPRC异构体转换的调控作用。这些发现证实了该方法在发育生物学和疾病研究中的广泛应用前景。
这项研究的创新性体现在三个层面:技术层面实现了纳米孔长读长数据中UMI的有效去噪,算法层面建立了单细胞剪接异质性的量化标准,生物学层面挑战了"单细胞倾向于表达单一主导异构体"的传统认知。随着长读长测序技术的普及,Longcell将为单细胞和空间多组学研究提供不可或缺的分析工具。
生物通微信公众号
知名企业招聘