KSRV:一种基于核主成分分析(Kernel PCA)的框架,用于以单细胞分辨率推断RNA的运动速度

《Frontiers in Genetics》:KSRV: a Kernel PCA-Based framework for inferring spatial RNA velocity at single-cell resolution

【字体: 时间:2025年11月08日 来源:Frontiers in Genetics 2.8

编辑推荐:

  空间转录组学与单细胞RNA测序数据融合的RNA速度推断方法研究。摘要:提出基于核主成分分析的KSRV框架,整合单细胞RNA测序与空间转录组数据,通过非线性降维对齐和k近邻回归预测spliced/unspliced表达,实现空间分辨率的细胞分化动力学分析。在鸡心发育和人类骨肉瘤细胞系数据集验证中,KSRV较SIRV和spVelo方法获得0.50-0.56的更高相似度评分,成功揭示时空连续的细胞状态转换轨迹。分隔符:

  理解基因表达的时间动态变化及其在空间背景下的模式,对于解析细胞分化过程至关重要。RNA速度分析作为一种新兴的技术手段,通过区分未剪接和已剪接的mRNA来估计基因表达的未来状态,为研究这些动态变化提供了强大的工具。然而,现有的空间转录组学技术在同时捕捉这两种mRNA时存在一定的局限性,尤其是在高分辨率下的应用。为了解决这一挑战,研究人员提出了一种新的计算框架——KSRV(基于核主成分分析的空间RNA速度推断),该框架整合了单细胞RNA测序(scRNA-seq)和空间转录组学数据,使得在空间解析的组织中能够更准确地推断RNA速度。KSRV经过了10x Visium数据集和MERFISH数据集的验证,其结果表明,与现有方法如SIRV和spVelo相比,KSRV在准确性和稳健性方面表现出色。此外,KSRV成功揭示了小鼠大脑发育和器官发生过程中的空间分化轨迹,展示了其在研究空间动态生物学过程中的巨大潜力。

RNA速度分析的引入为轨迹推断带来了突破性进展,使研究人员能够通过分析未剪接和已剪接mRNA的丰度来推断基因表达趋势,从而提供了一种强大的方法来推断细胞分化轨迹的方向以及预测细胞命运。尽管RNA速度分析已被广泛应用于多种scRNA-seq数据集,但大多数现有方法仅适用于孤立细胞,忽略了细胞在组织中的空间位置。然而,空间组织结构在细胞分化过程中起着关键作用,因为信号通路、基因表达模式和发育轨迹可能会在不同的微环境中发生显著变化。空间转录组学技术使研究人员能够获取带有空间信息的基因表达谱,从而揭示复杂的生物系统中的空间动态模式。例如,将RNA速度与空间信息相结合,使研究人员能够研究细胞分化的时空动态,并提高细胞命运预测的准确性。

当前的空间转录组学技术能够提供丰富的组织空间表达谱,但通常缺乏对未剪接和已剪接mRNA的区分,这限制了它们直接应用于RNA速度分析的能力。为了解决这一问题,一些方法尝试将scRNA-seq数据与空间转录组学数据对齐,以补充空间表达模式,为空间RNA速度推断提供了可能性。这些整合方法通常分为两种类型:去卷积方法和映射方法。去卷积方法旨在估计每个空间位置的细胞类型组成或平均基因表达,但通常忽略了细胞级别的分辨率。而基于映射的方法,如SpaGE,则通过分别对scRNA-seq和空间转录组学数据进行降维处理,然后将空间斑点投影到由scRNA-seq学习的低维嵌入空间中,再通过汇总其最近的单细胞邻居信息来推断每个斑点的基因表达。尽管这些方法在预测缺失基因方面有效,但它们通常依赖于线性降维技术,如PCA,这可能无法捕捉不同模态之间的复杂非线性关系。此外,这些方法主要用于基因补全,很少涉及空间RNA速度的推断。

本研究中提出的KSRV框架,旨在通过整合空间转录组学和scRNA-seq数据,推断空间RNA速度,从而更好地重建细胞分化轨迹,并在空间分辨率下描绘细胞命运的转变。KSRV的核心步骤包括:首先,分别对scRNA-seq和空间转录组学数据进行非线性核主成分分析(Kernel PCA),获得各自的数据潜空间,并进行对齐;其次,利用scRNA-seq数据中邻近单细胞的信息,推断每个空间斑点的已剪接和未剪接基因表达;最后,结合空间位置信息,计算空间RNA速度向量并重建细胞分化轨迹。KSRV能够在单细胞分辨率下重建空间分化轨迹,并在多种数据集中展现出良好的泛化能力和生物学可解释性,为研究空间发育动态提供了一种稳健且多功能的工具。

KSRV算法通过非线性核主成分分析对scRNA-seq和空间转录组学数据进行独立投影,以获得各自的潜空间,随后对这些空间进行对齐。这一过程通过应用PRECISE领域适应框架,使得单细胞和空间转录组学数据的分布得以对齐,从而减少潜在的批次效应。核主成分分析(Kernel PCA)使用径向基函数(RBF)核,其在非线性数据上的有效性已被验证。随后,计算这些矩阵的特征向量以提取主成分。为了对齐数据,应用了奇异值分解(SVD)以正交化这些成分,并仅保留那些与阈值(0.3)以上的余弦相似度的成分。这种对齐方法保留了非线性的基因表达模式,确保了数据的真实生物相似性而非技术变异。最终,将两个数据集投影到共同的潜空间,实现了数据对齐,同时保持了非线性基因表达特征。

在空间转录组学数据的预测方面,KSRV利用了k近邻(kNN)回归方法,通过从对齐的scRNA-seq数据中识别每个空间斑点的k个最近邻居,来预测其未测得的已剪接和未剪接基因表达。基于系统评估,k被设置为50,这一数值在所有数据集中都能最大化相似度得分并产生稳健的预测结果。对于每个斑点,其基因g的已剪接和未剪接表达值被预测为邻居细胞表达值的加权平均。这种预测方法不仅能够有效地推断基因表达,还能够更精确地反映细胞分化轨迹的空间分布。

为了评估KSRV的性能,研究人员在两个具有真实参考RNA速度的数据集上进行了实验:10x Visium数据集的发育鸡心组织和MERFISH数据集的人类骨肉瘤细胞(U-2 OS)。在鸡心数据集中,每个组织斑点都包含已剪接和未剪接的转录读数,使得可以直接利用scVelo计算参考RNA速度。参考速度被投影到UMAP空间和空间坐标上,揭示了细胞分化的明确方向趋势。值得注意的是,空间坐标上的速度投影更准确地反映了分化过程的生物学组织结构,因为它们保留了组织的物理结构。KSRV通过整合单细胞转录组信息来推断该数据集的RNA速度,而无需依赖空间数据中的已剪接和未剪接转录读数。KSRV推断出的整体分化轨迹与参考速度高度一致,表明其能够准确捕捉潜在的动态模式。

在MERFISH数据集中,KSRV通过kNN回归方法将细胞类型标签从scRNA-seq数据转移到空间数据。对于每个空间斑点和每种细胞类型,通过计算其邻居细胞中被标记为该类型的权重,得到一个评分。KSRV的预测结果在多个方面优于SIRV方法,包括更高的相似度得分和更准确的细胞分化轨迹。这表明,通过整合单细胞转录组数据,KSRV能够更精确地推断空间RNA速度,从而提高动态细胞状态重建的保真度。

KSRV不仅能够推断RNA速度,还能揭示细胞分化的时空动态。通过联合可视化细胞类型、分化时间(伪时间)和空间位置,KSRV提供了对组织形态发生过程的综合视角。在发育鸡心组织中,细胞类型和伪时间形成了重叠的空间梯度:前体细胞占据心室顶部,而分化后的成纤维细胞和瓣膜细胞则定位在心房-心室和流出区域。将伪时间重新映射到细胞类型图上,再现了相同的空间模式,表明心肌发育沿着明确的解剖轴进行。在U-2 OS数据集中,八个转录簇沿从中心向外的径向轨迹排列,与骨肉瘤进展过程中转录物迁移的空间组织一致。在小鼠大脑发育和器官发生过程中,推断出的速度场进一步突显了KSRV解析精细动态模式的能力。在发育中的大脑中,推断出的速度流在脑室区汇聚,然后向皮层表面发散,这与已知的神经发生模式一致。这些速度场不仅可视化了细胞迁移轨迹,还为分化和组织形成的空间协调提供了新的视角。

为了量化时间与空间调控的相对贡献,研究人员通过将细胞状态进展建模为伪时间和欧几里得距离的线性组合,分析了不同数据集中的细胞分化过程。在鸡心数据集中,早期分化主要由时间驱动,未成熟心肌和血管内皮细胞表现出较高的伪时间权重。相比之下,晚期成纤维细胞和瓣膜细胞系的伪时间权重较低,表明更强的空间依赖性。在U-2 OS数据集中,早期分化起源于簇0,其伪时间权重为0.325,表明初始的组织约束性。在分化后期,细胞聚集在簇4中,其伪时间权重为0.614,表明分化过程逐渐由伪时间主导。这些结果表明,KSRV能够有效解析不同组织中的分化动态,提供了一种统一的框架来解析发育程序。

进一步分析了细胞分化过程中欧几里得距离的变化。在鸡心数据集中,随着伪时间的增加,欧几里得距离的方差逐渐减小,表明细胞在分化过程中逐渐向特定空间区域集中。这一空间整合与图4A中的结果一致,其中终末成纤维细胞和瓣膜细胞占据解剖上受限的区域。在U-2 OS数据集中,距离方差随着伪时间增加而上升,表明细胞在分化过程中逐渐分散。这与图4B中的结果一致,其中终末细胞状态在空间上分散,反映了晚期骨肉瘤进展中较低的组织约束性。这些结果突显了不同组织中细胞分化的空间动态存在显著差异,鸡心发育表现出增加的空间组织化和分区化,而U-2 OS细胞则维持空间异质性,这可能反映了组织结构或病理状态的不同。

KSRV的提出为研究细胞分化过程提供了新的视角和工具。通过整合空间转录组学和scRNA-seq数据,KSRV能够更准确地推断RNA速度,并揭示分化轨迹的空间分布。其基于核主成分分析的框架在处理非线性数据方面表现出色,从而构建了更精确的速度场。在鸡心和U-2 OS数据集上的基准测试表明,KSRV在准确性和稳健性方面优于现有方法,如SIRV。此外,KSRV在小鼠大脑发育和器官发生过程中揭示了协调的分化轨迹,并通过欧几里得距离分析量化了空间集中或分散的动态过程。这些结果不仅证明了KSRV在速度预测准确性上的提升,还提供了关于时间与空间信号如何共同塑造细胞状态转换的机制见解,这对于解析发育程序和疾病进展具有重要意义。

尽管KSRV取得了显著进展,但仍存在一些局限性。例如,在将高维RNA速度向量投影到二维坐标系统时,细胞可能会被强制指向邻近细胞,这可能导致出现伪影。当前的KSRV实现采用了一种传统的融合策略,即KPCA,用于将空间转录组学数据与scRNA-seq数据整合。虽然KPCA在基于基因表达对齐两个数据集方面非常有效,但它并未显式利用空间转录组学数据中的空间关系,这可能限制了其捕捉空间结构生物学变化的能力。此外,KSRV在数据整合之前并未进行特征选择,以保留尽可能多的共享基因,并确保足够的信息用于对齐和RNA速度推断。然而,系统性的特征选择,无论是单模态方法如GeneClust还是空间数据方法如SpatialDE,还是多模态方法如LEGEND,都有助于减少噪声,提高计算效率,并突出生物信息性的基因。尽管当前基于KPCA的融合策略表现良好,但未来的工作可以探索更先进的对齐方法,如STANDS、DSTG或通用整合工具如Harmony,这些方法可以显式地纳入空间结构,从而进一步提升KSRV的稳健性、准确性和生物学可解释性。结合特征选择策略,这些改进将有助于KSRV在多种数据集和条件下更有效地解析生物学过程。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号