编辑推荐:
研究人员针对单细胞多组学测序局限,开展表面蛋白数据推断方法研究,发现 Seurat v4 (PCA) 和 Seurat v3 (PCA) 表现优异。
在生命科学的微观世界里,细胞就像一个个神秘的小宇宙,隐藏着无数的奥秘。单细胞多组学测序技术的出现,让科学家们有了探索这些奥秘的新工具,它能够同时分析单个细胞内的多种分子层面信息,为我们揭示细胞功能和异质性提供了全面的视角。其中,像细胞索引转录组和表位测序(CITE-seq)以及 RNA 表达和蛋白质测序分析(REAP-seq)等技术,更是能够同时对同一细胞内的转录组和表面蛋白质组进行定量分析,成功地在基因表达和蛋白质功能之间架起了一座桥梁。
然而,这些技术虽强大却存在着不小的 “短板”。它们的成本高得惊人,技术操作也极为复杂,这使得大规模公共数据集的生成变得困难重重,就像在科学家们探索细胞奥秘的道路上设置了一道高高的门槛。毕竟,要深入了解各种组织的复杂性,大规模的数据集是必不可少的 “钥匙”。那么,有没有什么办法能够突破这个限制呢?基于基因是蛋白质合成的蓝图,且转录组和蛋白质组之间存在着一定的关联,科学家们想到了一个巧妙的办法 —— 利用大型参考数据集来学习 RNA 和蛋白质之间的关系,进而从单细胞 RNA 测序(scRNA-seq)数据预测蛋白质丰度。于是,各种表面蛋白数据推断方法应运而生。
为了全面评估这些推断方法的性能,来自华中师范大学的研究人员展开了一项深入的研究。他们的研究成果发表在《Genome Biology》上,为该领域的发展提供了重要的参考。
在研究中,研究人员运用了多种关键技术方法。他们收集了 11 个公开可用的数据集,这些数据集涵盖了不同的样本和实验条件。针对每个数据集,研究人员进行了严格的质量控制,去除低质量的基因和细胞,确保数据的可靠性。然后,他们选取了 12 种最先进的表面蛋白数据推断方法,这些方法主要分为基于传统机器学习和基于深度学习的两大类。在实验过程中,研究人员模拟了多种实际场景,包括不同的训练数据大小、不同的样本来源、不同的组织类型、不同的临床状态以及不同的测序协议等,通过计算皮尔逊相关系数(PCC)、均方根误差(RMSE)和平均秩得分(ARS)等指标,对这些方法的准确性、对训练数据大小的敏感性、跨实验的稳健性以及可用性进行了全面评估。
下面让我们来详细看看研究的具体结果。
- 评估方案概述:研究人员构建了一个全面的评估框架,在每次实验中,使用一个包含配对转录组和蛋白质组数据的 CITE-seq 或 REAP-seq 数据集作为训练数据,将另一个数据集的蛋白质组数据屏蔽,仅保留转录组数据来模拟 scRNA-seq 数据作为测试数据。通过这种方式,运用 12 种推断方法对测试数据的蛋白质组进行预测,并从多个维度评估这些方法的性能。
- 不同场景下的准确性评估
- 随机划分场景:在训练和测试数据集随机划分的场景下,研究人员利用 3 个广泛引用的数据集进行实验。结果发现,大多数方法在不同重复实验中表现稳定,但 moETM 对训练和测试数据集的划分较为敏感。综合评估后,cTP-net 在蛋白质水平表现突出,而 Seurat v4 (PCA)、Seurat v4 (CCA) 和 Seurat v3 (PCA) 在蛋白质和细胞水平都具有较强的竞争力。
- 不同训练数据大小场景:研究人员通过对训练数据集进行不同程度的下采样,探究训练数据大小对推断方法准确性的影响。结果表明,随着训练数据集大小的减小,推断性能普遍下降。不过,Seurat v3 (CCA)、Seurat v4 (CCA) 和 Seurat v4 (PCA) 等方法对训练数据大小的变化相对不敏感,能够保持稳健的性能。在综合排名中,cTP-net、Seurat v4 (PCA) 和 Seurat v4 (CCA) 在蛋白质水平表现最佳,而 Seurat v4 (PCA)、Seurat v4 (CCA) 和 Seurat v3 (PCA) 在细胞水平更胜一筹。
- 不同样本场景:当训练和测试数据集来自不同样本时,研究人员使用了 3 个数据集进行实验。结果显示,不同数据集上各方法的表现差异显著。在蛋白质水平,moETM、TotalVI 和 scMoGNN 表现出色;在细胞水平,Seurat - 基于的方法表现优越。
- 不同组织场景:针对训练和测试数据集来自不同组织的情况,研究人员选用了 3 个代表不同血液来源细胞的数据集进行实验。结果发现,Seurat - 基于的方法在大多数情况下在蛋白质和细胞水平都表现良好,但在某些实验中,scMoGNN 和 cTP-net 在蛋白质水平表现突出,sciPENN 在细胞水平的 PCC 指标上表现优异。
- 不同临床状态场景:在评估方法在不同临床状态数据集之间的转移能力时,研究人员使用了 3 个相关数据集进行多组实验。结果表明,moETM 在蛋白质水平的表现始终优异,而在细胞水平,各方法的表现因实验而异。综合 ARS 评估,moETM、Seurat v3 (PCA) 和 scMoGNN 在蛋白质水平排名靠前,Seurat v3 (PCA)、Seurat v4 (PCA) 和 scMoGNN 在细胞水平表现突出。
- 不同协议场景:在训练和测试数据集来自不同测序协议的场景下,研究人员利用 4 个数据集进行实验。结果显示,Seurat - 基于的方法在所有实验中都表现出卓越的泛化能力,在蛋白质和细胞水平的评估中都名列前茅。
- 可用性评估:在时间和内存可用性方面,研究人员发现 cTP-net 运行时间极长,主要是由于其数据去噪过程。其他方法根据运行时间可分为三类,TotalVI 和 scMOG 运行时间较长但相对稳定,sciPENN、Babel 和 moETM 运行效率最高,Seurat v4 在低训练数据率时比 Seurat v3 慢,高训练数据率时则相反。在内存使用上,scMOG 和 scMoGNN 在高训练数据率时超过 20GB,cTP-net 使用量在 10 - 20GB 之间,Seurat - 基于的方法使用量较少且相对稳定。此外,Seurat - 基于的方法在受欢迎程度和用户友好性方面也占据领先地位。
综合各项评估结果,研究人员得出结论:Seurat - 基于的方法,尤其是 Seurat v4 (PCA) 和 Seurat v3 (PCA),在各种实验场景下都表现出了卓越的准确性和稳健性,对训练数据大小相对不敏感,并且具有内存高效和用户友好的特点,是表面蛋白表达推断任务的理想选择。然而,这些方法与一些深度学习方法相比,运行时间较长,在处理大规模数据集时可能存在可扩展性问题,这也为未来的研究指明了方向。
这项研究全面评估了 12 种表面蛋白数据推断方法,为科研人员在单细胞组学研究中选择合适的方法提供了重要的参考依据,推动了单细胞多组学研究的发展,有助于我们更深入地了解细胞的奥秘,为生命科学和健康医学领域的研究奠定了更坚实的基础。