SCSES:基于数据扩散的单细胞分辨率可变剪接异质性解析新方法
《Nature Communications》:Deciphering splicing heterogeneity at single-cell resolution by SCSES
【字体:
大
中
小
】
时间:2025年10月28日
来源:Nature Communications 15.7
编辑推荐:
本研究针对单细胞RNA测序(scRNA-seq)数据中因高丢失率、技术噪音和有限覆盖度导致的剪接变化表征难题,开发了SCSES计算框架。该工具通过跨相似细胞和事件的网络扩散技术推断缺失剪接信息,在模拟和真实数据中均显著提升PSI值估计准确性,成功识别出传统基因表达聚类无法捕捉的细胞亚群,为在单细胞水平探索转录后调控机制提供了强大工具。
在生命科学领域,单细胞RNA测序(scRNA-seq)技术的出现使研究人员能够在单个细胞水平解析转录组的异质性,然而在转录后调控层面,特别是可变剪接(Alternative Splicing, AS)的研究仍面临巨大挑战。可变剪接作为真核生物基因表达调控的关键机制,能够从一个基因产生多个转录本,极大地增加了转录组的多样性。研究表明,超过95%的人类多外显子基因会发生可变剪接,产生超过30万种异构体。尽管其在细胞分化、发育和疾病中具有重要作用,但由于scRNA-seq数据存在高丢失率、不可避免的技术噪音和有限的测序覆盖度,准确表征单细胞水平的剪接变化一直是个难题。
现有计算方法如BRIE、Expedition、Psix和SCASL等在应用范围或准确性上存在局限:有的过度依赖预先已知的细胞类型标识,有的仅能处理部分剪接事件类型(如外显子跳跃SE和互斥外显子MXE),而难以检测A3SS、A5SS和RI等事件。此外,有限的连接读段计数往往导致PSI值的不可靠估计。这些限制阻碍了我们在单细胞分辨率下全面理解剪接异质性及其生物学意义。
为了突破这些瓶颈,研究人员在《Nature Communications》上发表了题为"Deciphering splicing heterogeneity at single-cell resolution by SCSES"的研究成果,开发了一种名为SCSES(Single-Cell Splicing Estimation)的计算框架。SCSES采用基于网络扩散的数据填充策略,通过共享相似细胞和相似事件之间的信息,推断并补全缺失的剪接变化。该方法不仅提高了单细胞PSI值的估计准确性,还能识别出具有独特剪接模式的细胞亚群,这些亚群在传统的基因表达分析中是无法被检测到的。
SCSES的关键技术方法包括:通过合并所有单细胞读段创建伪批量bam文件并识别主要剪接事件类型;构建细胞和事件相似性网络(使用K近邻算法和动态K值策略);采用三种数据填充策略针对不同生物学场景(非丢失ND、生物学丢失BD、技术丢失TD等);以及通过随机游走重启算法捕获网络全局拓扑相似性。研究使用了来自癌症细胞系百科全书(CCLE)的批量RNA-seq数据、配对长短读单细胞数据(卵巢癌和人类海马体)以及多个公共scRNA-seq数据集(诱导多能干细胞、人类早期胚胎等)进行系统验证。
SCSES框架首先通过合并所有单细胞的测序读段创建伪批量文件,利用常规AS检测算法(rMATS、MAJIQ、IRFinder)识别所有主要类型的剪接事件。基于这一剪接参考,SCSES计算每个细胞中的原始包含/排除连接读段计数,构建原始读段计数矩阵和原始PSI矩阵。为了解决数据稀疏性问题,SCSES使用扩散算子在与细胞/事件相似性相关的低维流形上传播信息,恢复缺失的连接。该方法基于以下假设:具有相似剪接机制活性的细胞具有相似的剪接模式,而具有相似调控特征的事件会产生可比的剪接结果。
SCSES采用动态K策略为每个细胞自适应选择最优K值,构建细胞相似性网络(基于RNA结合蛋白基因表达、原始读段计数或原始PSI矩阵)和事件相似性网络(整合事件序列特征和RBP调控相关性)。通过随机游走重启算法捕获网络全局拓扑相似性后,SCSES根据目标细胞及其邻近细胞中替代连接的丰度,将事件-细胞对分为四种类型,并针对每种类型推荐不同的填充策略。最终PSI值通过不同策略预测结果的加权线性组合得到,权重由对应概率决定。
通过使用CCLE中四种细胞系(HCT116、HCC1954、HepG2和HL-60)的批量RNA-seq数据作为基准,研究人员评估了SCSES在单细胞水平重现剪接景观的准确性。与BRIE1、BRIE2、Expedition、Psix、SCASL和rMATS等现有算法相比,SCSES在所有情况下均表现出最优性能,实现了更高的细胞水平PSI相关性和更低的事件水平PSI估计误差。在模拟数据集上,SCSES在不同测序质量下均能平衡AS识别和定量的准确性。在真实组织数据(卵巢癌样本和人类海马体)中,SCSES将PSI估计的均方根误差降低了超过13%(卵巢癌)和约16%(海马体)。
在检测差异剪接事件方面,SCSES在大多数情况下通过将曲线下面积(AUC)提升>0.1而表现出优越的准确性。更重要的是,SCSES检测到的剪接变化与真实批量测序结果更为一致。值得注意的是,SCSES能够捕获更广泛的剪接事件和事件类型,如成功识别出HCT116细胞中VPS29转录本第2外显子的包含,以及NUMB第12外显子在三种实体肿瘤细胞系(HCC1954、HCT116和HepG2)中比血肿瘤细胞(HL-60)更频繁的包含,这与近期研究一致。
为了评估SCSES的生物学意义,研究人员评估了填充后的剪接谱在识别细胞类型和推断细胞伪时间轨迹方面的能力。在三个高质量测序数据集(诱导人类原始多能干细胞nPSC、人类早期胚胎hEE和诱导多能干细胞iPSC)上,SCSES在nPSC和hEE数据集上显示出最佳的细胞聚类性能(归一化互信息NMI最高)。在iPSC数据集中,SCSES将运动神经元分为两个亚群(MN-C1和MN-C2),这一区分在其他方法或基因表达值中不明显。这两个剪接亚群在MN细胞的原始剪接谱中也能被检测到,且与mRNA剪接和神经元发育相关的基因在MN-C1和MN-C2之间存在差异表达。
伪时间分析显示,基于SCSES填充PSI推断的伪时间与基因表达基准在单个细胞水平上具有更高的相关性。从细胞群体视角看,轨迹与细胞分化阶段高度一致。此外,SCSES填充的PSI值支持的关键剪接调控关系(如PTBP1表达与PKM和SRSF3中特定外显子剪接的相关性)与已知生物学知识一致。
SCSES揭示多发性骨髓瘤初诊时与潜在耐药相关的细胞群体
研究人员将SCSES应用于多发性骨髓瘤研究,分析了127个来自同一患者在使用沙利度胺和硼替佐米(BTZ)治疗前后采集的细胞。传统基因表达谱检测到两个簇(EC1和EC2),而SCSES填充的12,468个AS事件识别出四个簇,将每个基因表达簇细分为两个亚群。伪时间分析和RNA速度推断均支持从SC1到SC4的连续细胞进化路径,且拷贝数变异从SC1到SC4逐渐增加。
重要的是,SCSES识别出在初诊时已具备BTZ耐药潜力的SC2细胞。这些细胞高表达与不良预后相关的基因,且与肿瘤复发中独家表达的基因显示相同的调控变化。SC1和SC2之间检测到248个差异剪接事件,而携带这些事件的基因总体表达水平无差异变化。这些剪接异常基因在蛋白质代谢和细胞死亡通路中富集,特别是13个与蛋白泛素化相关的基因发生可变剪接,可能通过间接失调泛素-蛋白酶体系统而降低对BTZ的敏感性。
SCSES解析人类胚胎发育中从中内胚层到定形内胚层的剪接动态
研究人员利用SCSES评估了人类胚胎干细胞从多能性维持向谱系特异性分化过程中AS的作用。在758个来自H9 hESC三个主要分化状态的细胞中,SCSES剪接谱将不同时间点的大部分细胞聚类为独立群体,显示出整个分化过程中清晰的剪接动态。差异剪接基因的功能富集分析显示,剪接改变参与分化进程,如内胚层细胞命运决定、WNT信号通路和上皮-间质转化(EMT)过程。
研究人员特别关注了中内胚层(ME)向定形内胚层(DE)转变的关键时期(36小时),发现基因表达特征产生了两个没有清晰界限的簇,而SCSES剪接特征在相同聚类分辨率下产生了三个簇。SC1细胞高表达DE标记CXCR4和SOX17,而SC2和SC3细胞高表达多能性标记POU5F1,且SC1细胞具有更高的分化评分,表明SC1细胞代表了ME向DE转变的晚期阶段。这一区分仅能通过AS变化检测到,而非整体基因表达。
SCSES在诱导HSC分化中识别激活的单核细胞亚型
为了测试SCSES在液滴测序数据上的性能,研究人员探索了造血干细胞(HSC)分化过程中的剪接异质性。在31,542个小鼠细胞中,SCSES成功识别出13个细胞簇,并通过整合AS谱将某些细胞类型(如中性粒细胞和单核细胞)区分为多个亚群。三个单核细胞亚群(Mono1、Mono2、Mono3)在SCSES填充的剪接变化下显示出明显的UMAP投影区分,而这在基因表达聚类中无法检测到。
单核细胞亚群之间的比较显示,Mono3中Runx1第6外显子的包含水平显著升高,该异构体可促进多能祖细胞向髓系谱系定向。此外,Mono3表现出更高的初级颗粒基因表达,呈现"中性粒细胞样"特征。研究人员还发现19个自噬相关基因存在剪接变化,如Lamp2和Sh3glb1的不同异构体在单核细胞亚群中特异性富集,表明单核细胞可能通过产生剪接变体调控自噬过程。
该研究的核心结论在于SCSES通过创新的数据填充策略和网络扩散技术,显著提升了单细胞水平可变剪接分析的准确性和全面性。与现有方法相比,SCSES不仅能够更准确地估计PSI值,还能识别出传统基因表达分析无法检测到的生物学相关细胞亚群。在多发性骨髓瘤和胚胎发育等应用场景中,SCSES揭示的剪接异质性为理解疾病机制和发育过程提供了新的视角。
讨论部分强调,SCSES的创新性在于其综合考虑了每个事件-细胞对的特性,基于目标细胞和邻近细胞中替代连接的丰度采用不同的填充策略。这种集成方法在大多数情况下提高了PSI估计准确性和聚类一致性。此外,SCSES的开放框架允许用户整合自己喜欢的检测工具生成的事件列表,增强了方法的灵活性和适用性。
然而,研究也指出SCSES目前主要依赖RBP表达、原始PSI或原始连接读段计数来计算细胞剪接相似性,未来可整合更多调控因子(如RBP的转录后修饰、RNA修饰等)以更全面描绘细胞剪接异质性。尽管SCSES在液滴数据上表现良好,但估计远离转录本3'端的剪接事件强度仍具挑战性,生成式人工智能模型可能为此提供解决方案。
总体而言,SCSES为在单细胞水平探索转录后调控机制提供了强大工具,将推动从剪接视角理解细胞异质性、发育过程和疾病机制的研究。该工具的开发和应用标志着单细胞分析从基因表达向更精细的转录异构体层面迈进的重要一步,为精准医学和基础生物学研究开辟了新途径。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号