单细胞参考数据中缺失细胞类型对批量数据反卷积的影响及其检测方法研究

【字体: 时间:2025年04月08日 来源:Genome Biology 10.1

编辑推荐:

  本研究针对RNA测序数据分析中单细胞参考数据缺失特定细胞类型的问题,通过配对单细胞和单核测序数据模拟真实场景,系统评估了缺失细胞类型对NNLS、CIBERSORTx和BayesPrism三种反卷积方法的影响。研究发现缺失细胞类型的数量和相似性显著影响反卷积性能,并提出通过非负矩阵分解(NMF)可从残差中恢复缺失细胞类型信息。该成果为改进反卷积方法提供了重要依据,对准确解析复杂组织细胞组成具有重要价值。

  

在基因表达分析领域,单细胞RNA测序(scRNA-seq)技术的出现革命性地改变了我们对组织异质性的认识。然而,这项技术存在一个关键瓶颈:某些细胞类型如脂肪细胞和间皮细胞在单细胞悬液制备过程中容易丢失,导致单细胞参考数据存在"缺失细胞类型"问题。这种情况在高级别浆液性卵巢癌(HGSOC)等疾病研究中尤为突出,因为脂肪细胞的缺失可能掩盖肿瘤微环境的重要特征。更棘手的是,目前广泛使用的反卷积方法如NNLS、CIBERSORTx和BayesPrism都默认参考数据包含所有细胞类型,这种假设在真实研究中往往不成立。

为解决这一难题,美国科罗拉多大学安舒茨医学院等机构的研究团队开展了一项创新性研究。他们巧妙利用配对的单细胞和单核RNA测序(snRNA-seq)数据,通过snRNA-seq捕获scRNA-seq中缺失的细胞类型,构建了理想的验证体系。研究系统评估了缺失细胞类型对反卷积的影响,并探索了从残差中恢复缺失信息的可行性。相关成果发表在《Genome Biology》上,为改进组织细胞组成分析提供了重要方法论指导。

研究团队采用了多层次的实验设计和技术路线。首先利用PBMC3k数据集和脂肪组织单细胞/单核测序数据构建模拟批量数据(伪批量),通过系统性地移除特定细胞类型模拟参考数据缺失情况。采用三种主流反卷积方法(非负最小二乘法NNLS、CIBERSORTx和BayesPrism)进行分析,通过计算残差矩阵并应用非负矩阵分解(NMF)探索缺失细胞类型的可恢复性。对真实HGSOC批量RNA-seq数据的分析进一步验证了研究发现。统计评估采用Pearson相关性和均方根误差(RMSE)等指标。

在"缺失细胞类型信息存在于反卷积后的残差中"部分,研究显示当参考数据完整时,NNLS能准确恢复细胞比例。但随着缺失细胞类型增加,性能逐渐下降。引人注目的是,通过NMF分析残差矩阵,发现分解后的因子与缺失细胞类型的真实比例高度相关(Pearson相关系数高,RMSE值低),证明残差中确实保留了缺失细胞类型的信息信号。

"广泛使用方法的残差中存在缺失细胞类型特征"部分比较了三种方法的性能。研究发现无论使用NNLS、BayesPrism还是CIBERSORTx,残差中都存在与缺失细胞类型相关的信号。特别值得注意的是,细胞类型间的表达相似性显著影响信息恢复效果:当缺失的细胞类型表达谱差异较大时(如B细胞、FCGR3A单核细胞等),其比例能准确对应到特定NMF因子;而当缺失相似细胞类型(如CD8 T细胞、CD4 T细胞等)时,信号则会出现重叠。

"匹配的单细胞和单核数据实现真实比例测试"部分采用了更接近真实场景的实验设计。利用脂肪组织数据,其中单核测序包含而单细胞测序缺失脂肪细胞和间皮细胞(占细胞总数50%以上)。研究发现真实比例条件下反卷积准确性低于随机比例条件,添加高斯噪声会进一步降低性能。尽管如此,在NNLS分析中仍能观察到残差因子与缺失细胞比例的显著相关性。对真实脂肪组织批量RNA-seq数据的分析显示,用scRNA-seq(缺失脂肪细胞和间皮细胞)作为参考时,这两种细胞的特异标记基因在残差中的表达水平显著高于使用snRNA-seq参考时的残差。

"HGSOC样本中缺失细胞类型表达的恢复"部分将研究拓展至临床相关场景。分析匹配的HGSOC批量数据发现,经典批量样本(含脂肪细胞)与解离批量样本(缺失脂肪细胞)的残差存在显著差异。NMF识别出一个特异性因子(因子2)能区分两类样本,而添加脂肪细胞到参考数据后这种差异消失。PCA分析进一步确认差异成分与脂肪细胞相关生物学过程显著相关。

这项研究得出几个重要结论:首先,参考数据中缺失细胞类型会显著影响反卷积准确性,影响程度取决于缺失细胞的数量和相似性。其次,残差分析可作为检测缺失细胞类型的有效手段,特别是通过NMF等降维技术。最重要的是,研究证实即使在复杂真实条件下(如脂肪组织数据中缺失细胞占比超过50%),缺失细胞类型的信息仍部分保留在残差中。这些发现为改进反卷积方法指明了方向:或通过迭代残差分析识别潜在细胞类型,或结合特定研究参考与大型图谱数据库。该研究不仅揭示了当前反卷积方法的局限性,更为发展新一代能适应不完整参考数据的算法奠定了理论基础,对精准解析复杂组织细胞组成、揭示疾病微环境特征具有重要价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号