编辑推荐:
在生物学研究中,利用单细胞 / 核 RNA 测序(sc/snRNA-seq)参考数据对批量 RNA 测序(RNA-seq)数据进行细胞反卷积,是探究异质组织细胞类型组成的重要策略,但现有方法存在诸多问题。研究人员生成人类背外侧前额叶皮层多组学数据集,评估六种反卷积算法,发现 Bisque 和 hspe 最准确。该研究为相关研究提供重要参考115。
在生命科学研究的广袤领域中,探究细胞类型组成一直是个关键难题。随着批量 RNA 测序(RNA-seq)和单细胞或单细胞核 RNA 测序(sc/snRNA-seq)技术的发展,越来越多的数据被生成和共享。RNA-seq 数据因成本较低,促使众多利用 sc/snRNA-seq 参考数据进行细胞反卷积和细胞类型比例估计的方法涌现。这些方法在下游应用中发挥着重要作用,如差异表达分析、细胞类型特异性表达定量性状位点(eQTL)发现等。然而,目前细胞反卷积方法面临诸多挑战。一方面,不同方法的估计结果差异很大,使得研究人员难以选择合适的算法。另一方面,缺乏可靠的 “金标准” 或 “银标准” 细胞类型比例数据来对这些方法进行准确的基准测试。以往常用的模拟数据或伪批量数据存在局限性,无法真实反映细胞类型比例。此外,RNA 提取方法和文库制备协议的差异,以及细胞类型标记基因选择的不准确性,都影响着反卷积方法的性能评估。
为了解决这些问题,来自 Lieber Institute for Brain Development、Johns Hopkins Medical Campus 等机构的研究人员开展了一项深入研究。他们生成了来自死后人类背外侧前额叶皮层(DLPFC)的多组学数据集,包含批量 RNA-seq、参考单细胞核 RNA 测序(snRNA-seq),以及通过 RNAScope / 免疫荧光(IF)对细胞类型比例进行的正交测量数据。研究人员利用这个数据集对六种反卷积算法进行了全面评估。该研究成果发表在《Genome Biology》上,为该领域的研究提供了重要的参考依据。
研究人员用到的主要关键技术方法如下:
- 样本采集与处理:从 10 位成年神经典型对照供体的 DLPFC 获取 22 个组织块,进行冷冻切片,分别用于不同检测,如批量 RNA-seq、snRNA-seq、RNAScope/IF 等。
- 核酸提取与文库制备:对组织块进行总 RNA 和分馏 RNA 提取,采用不同试剂盒和方法制备 RNA 文库,如使用 Qiagen RNeasy mini kit 提取总 RNA,利用 Cytoplasmic and Nuclear RNA Purification kit 进行分馏 RNA 提取,分别制备 PolyA 和 RiboZeroGold 文库1617。
- 数据分析方法:运用多种数据分析方法,如主成分分析(PCA)探究基因定量差异,通过差异基因表达(DGE)分析识别差异量化基因(DQGs),利用 RNAScope/IF 成像估计细胞类型比例,采用新的 Mean Ratio 方法选择细胞类型标记基因,对六种反卷积算法进行基准测试等418。
研究结果如下:
- 多模态数据集构建:从 19 个 DLPFC 组织块中提取 RNA,进行多种文库制备和测序,得到 110 个 RNA-seq 样本。同时,利用 RNAScope/IF 技术对 21 个组织块进行检测,估计六种主要细胞类型的比例。此外,还使用了之前研究中的 snRNA-seq 数据作为参考23。
- RNA 测序文库制备差异:通过 PCA 和 DGE 分析发现,不同 RNA 文库制备类型和 RNA 提取方法会导致基因定量存在显著差异。例如,PolyA 和 RiboZeroGold 文库在检测基因数量、基因生物类型等方面存在差异,且不同细胞分馏的 RNA 提取也会导致基因表达差异45。
- 细胞类型比例测量:利用 RNAScope/IF 技术对细胞类型比例进行测量,发现不同细胞类型在组织中的比例不同,且与 snRNA-seq 数据相比存在差异。如星形胶质细胞在 snRNA-seq 中被低估,而少突胶质细胞被高估67。
- 标记基因选择方法评估:提出新的 Mean Ratio 方法选择细胞类型标记基因,该方法能选出在目标细胞类型中高表达、在非目标细胞类型中低表达的基因。与其他方法相比,Mean Ratio 方法选出的标记基因在反卷积分析中表现更优8。
- 反卷积方法性能评估:对六种反卷积算法进行基准测试,结果显示 Bisque 和 hspe 与 RNAScope/IF 测量的细胞类型比例相关性最高,准确性最好。不同标记基因集对反卷积方法的性能有影响,Bisque 在不同标记基因集下表现最稳定910。
- 参考数据集和细胞大小的影响:研究发现,参考数据集的细胞类型比例和细胞大小会影响反卷积结果。例如,Bisque 对参考数据集的细胞类型比例较为敏感,而调整 MuSiC 的细胞大小参数可提高其性能1112。
- 不同数据集上的性能测试:在非配对 snRNA-seq 参考数据和跨区域批量 RNA-seq 数据上测试反卷积方法性能,发现 Bisque 和 hspe 在不同数据集上表现出不同的特点。如 Bisque 在较大参考数据集上更稳定,而 hspe 在不同数据集上的表现相对更一致1314。
研究结论和讨论部分指出,该研究提供的多组学数据集可用于多组学数据整合和反卷积算法的基准测试。Bisque 和 hspe 是性能最佳的反卷积算法,新的 Mean Ratio 方法能有效选择标记基因,提高反卷积准确性。然而,研究也存在一定局限性,如 RNAScope/IF 数据存在图像分割和细胞类型分类困难,细胞类型分辨率有限等问题。尽管如此,该研究为进一步开发和优化 RNA-seq 数据的反卷积方法提供了重要的资源和参考,有助于推动相关领域的研究进展。