《BMC Bioinformatics》:Redefining the high variable genes by optimized LOESS regression with positive ratio
编辑推荐:
为解决单细胞 RNA 测序(scRNA-seq)数据高维度、稀疏性及现有特征选择方法的不足,研究人员开展了重新定义高可变基因(HVGs)的研究。结果显示,开发的 GLP 算法性能优于其他方法,有助于提升下游分析效果,为 scRNA-seq 数据分析提供了有力工具。
在生命科学研究领域,单细胞 RNA 测序(scRNA-seq)技术的出现宛如一盏明灯,照亮了科学家们探索细胞奥秘的道路。它能够在单个细胞水平上揭示转录组学特征和细胞异质性,为理解生命过程和疾病机制带来了前所未有的机遇。然而,这一技术产生的数据存在高维度和稀疏性的问题,就像一片茂密而复杂的丛林,让后续的分析困难重重。例如,在分析海量基因表达数据时,高维度数据会增加计算成本,降低分析效率;而稀疏性则使得准确捕捉基因表达的真实信号变得极为困难,就像在嘈杂的环境中分辨微弱的声音一样。
同时,现有的基因特征选择方法也面临着严峻挑战。这些方法大致分为基于统计或分布模型以及依赖聚类或图论的方法。但由于 scRNA-seq 数据的稀疏性和 dropout 噪声(因技术或生物学因素导致基因表达未被检测到的现象),这些方法往往难以准确识别高可变基因,无法有效捕捉单细胞基因表达的异质性。这不仅会导致基因共表达网络构建不准确,还会影响细胞聚类和功能富集分析的结果,使得研究人员可能得出错误的结论。
为了突破这些困境,中国科学院大学、华大基因研究院等机构的研究人员展开了深入研究。他们致力于开发一种更强大、更准确的特征选择算法,以提高单细胞转录组数据分析的质量和效率。最终,研究人员成功开发出一种基于优化局部估计散点图平滑回归(LOESS)和阳性率的特征选择算法 ——GLP(Genes identified through LOESS with positive ratio)。该算法在多个方面展现出显著优势,为单细胞转录组数据分析带来了新的突破,相关研究成果发表在《BMC Bioinformatics》上。
研究人员在开展此项研究时,主要运用了以下关键技术方法:首先,收集了 20 个来自不同生物系统的公开单细胞数据集,涵盖了免疫系统、骨髓、小鼠大脑和肿瘤等多个领域,这些数据集包含原始测序矩阵和注释的细胞类型标签。然后,使用 Seurat 软件包对数据进行预处理,包括创建 Seurat 对象、归一化处理和缩放处理,以消除测序深度差异和基因特异性变异的影响。接着,利用主成分分析(PCA)进行降维,通过共享最近邻(SNN)图和 Louvain 算法进行聚类分析。在差异基因表达分析中,使用 Seurat 的 FindAllMarkers 函数和 Wilcoxon 秩和检验确定差异表达基因。最后,借助 slingshot 软件包进行轨迹推断,探索细胞分化轨迹。
下面来看看具体的研究结果:
- GLP 性能优于现有方法:研究人员将 GLP 与八种先进的特征选择算法进行比较,使用调整兰德指数(ARI)、归一化互信息(NMI)和轮廓系数等指标评估聚类性能。在 20 个数据集上的综合评估表明,GLP 在 ARI 和 NMI 指标上显著优于其他方法,其中位数分别为 0.54 和 0.62,相比排名第二的方法有明显提升。在轮廓系数方面,GLP 也具有显著优势,除了 FEAST、M3Drop、NBDrop 和 HRG 这几种方法外。而且 GLP 仅用 1000 个基因就能达到最佳性能,且所选基因集更能反映单细胞数据中阳性率的分布特征,减少了技术噪声的影响,提高了下游分析的稳健性。
- GLP 助力下游分析:在人类端脑类器官 scRNA-seq 数据集的研究中,GLP 再次展现出卓越性能。在降维和聚类方面,GLP 的 ARI、NMI 和轮廓系数分别达到 0.585、0.689 和 0.384,恢复率高达 72.8%,能够更准确地将细胞分类到已知类别。例如,GLP 成功将径向胶质分裂祖细胞(RGs/DividingPr)分为两类,与原始数据中的细胞类型相符,而其他方法未能做到。在差异基因表达分析中,GLP 所识别的高可变基因有助于更准确地进行细胞分类,其确定的差异表达基因(DEGs)平均 log2倍数变化(log2FC)中位数更高,增强了分析的敏感性。在轨迹推断方面,GLP 准确识别出中间祖细胞(IPCs)来源于 RGs/DividingPr,而不是少突胶质前体细胞(OPCs),成功重建了细胞分化关系,为研究细胞分化动态过程提供了重要依据。
- GLP 的计算效率:在计算效率方面,M3Drop 是最快的算法,平均运行时间不超过 3 秒,而 GLP 平均运行时间为 46.97 秒,排名第五。虽然 GLP 的运行时间相对较长,但在 20 个数据集中,只有 4 个数据集的运行时间超过 1 分钟,最长为 104 秒。其较长的运行时间主要是由于计算 LOESS 跨度宽度的最优值,这一过程虽然耗时,但对提高结果准确性至关重要,整体运行时间对于单细胞数据分析来说是可接受的。
综上所述,研究人员开发的 GLP 算法为 scRNA-seq 数据的特征选择提供了一种创新且有效的解决方案。它通过整合阳性率和 LOESS 回归,能够更准确地识别高可变基因,减少噪声影响,提升下游分析的准确性和有效性,在降维、聚类、差异基因表达分析和轨迹推断等方面都展现出显著优势。尽管 GLP 存在计算复杂度较高和固定选择 HVGs 数量等局限性,但这并不影响其在单细胞转录组分析领域的重要价值。随着技术的不断发展,未来有望通过优化计算方法进一步提升 GLP 的性能,使其在生命科学研究和医学领域发挥更大的作用,为揭示细胞奥秘、理解疾病机制提供更有力的支持。