scAMZI:基于注意力自编码器和零膨胀层的单细胞 RNA 测序数据聚类新方法,开启细胞研究新征程

《BMC Genomics》:scAMZI: attention-based deep autoencoder with zero-inflated layer for clustering scRNA-seq data

【字体: 时间:2025年04月08日 来源:BMC Genomics 3.5

编辑推荐:

  为解决现有单细胞 RNA 测序(scRNA-seq)数据聚类方法存在的无法充分利用细胞特征、整合细胞间关系灵活性不足及易受数据缺失影响等问题,研究人员开展 scAMZI 模型用于 scRNA-seq 数据聚类的研究。结果显示 scAMZI 性能优于其他方法,有助于下游分析,意义重大。

在生命科学研究的微观世界里,单细胞 RNA 测序(scRNA-seq)技术宛如一把神奇的钥匙,让科研人员得以深入探索细胞的奥秘。它所产生的海量数据,为揭示不同细胞的状态和类型提供了前所未有的机会。然而,这把钥匙也带来了烦恼。scRNA-seq 数据具有高缺失率和稀疏性的特点,就像在拼图游戏中,缺失了很多关键的碎片,给数据聚类工作带来了巨大挑战。
传统的聚类算法,如 SAIC 利用迭代 k - 均值聚类,但其预定义的 k 值会影响结果,且对异常值敏感,容易遗漏罕见细胞类型;CIDR 作为层次聚类算法,时间复杂度高,难以处理大规模数据;基于社区检测的方法,像 Louvain 和 SCANPY,可能找不到小的社区和罕见细胞类型。近年来,深度学习(DL)方法虽取得一定成果,但也存在缺陷,它们不能充分挖掘细胞特征,在整合细胞间关系时缺乏灵活性,而且性能还会受到数据缺失事件的影响。

为了突破这些困境,来自山东计算机科学中心(齐鲁工业大学 / 山东省科学院)、山东大学第二医院等机构的研究人员开展了一项极具意义的研究。他们提出了一种名为 scAMZI 的深度学习模型,旨在更高效地对 scRNA-seq 数据进行聚类分析 。该研究成果发表在《BMC Genomics》上。

研究人员在研究过程中运用了多种关键技术方法。首先是数据预处理,对 14 个不同规模的基准 scRNA-seq 数据集进行筛选和标准化处理,去除基因零值,选择在所有细胞中都表达的基因,并进行归一化和对数转换 。核心技术则是构建 scAMZI 模型,其主要由 SimAM(一种简单无参数的注意力模块)、自编码器、ZINB(零膨胀负二项式)模型和零膨胀层(ZI layer)组成。最后采用归一化互信息(NMI)和调整兰德指数(ARI)等指标评估模型性能,并与 9 种其他方法进行对比 。

下面来看看具体的研究结果:

  1. 消融实验:为探究 SimAM 和 ZI 层对模型性能的影响,研究人员构建了两个 scAMZI 变体模型,分别去除 SimAM 和 ZI 层。实验结果表明,去除 SimAM 或 ZI 层后,模型的平均 ARI 分别下降 9.21% 和 6.79%,平均 NMI 分别下降 8.41% 和 6.80%。这充分说明 SimAM 和 ZI 层对 scAMZI 性能提升至关重要。
  2. 模拟数据集实验:考虑到实际应用中 scRNA-seq 聚类常受数据缺失和细胞类型不平衡的困扰,研究人员利用 splatter 工具生成不同缺失率的模拟不平衡数据集进行实验。结果显示,scAMZI 在这些数据集上表现出色,能够有效消除数据缺失和细胞类型不平衡的影响,准确分类细胞类型并找到标记基因。
  3. 批次效应校正实验:研究人员通过保留 scAMZI 的隐藏层,对比同一细胞类型在原始空间和潜在空间的聚类结果,发现 scAMZI 能将来自不同数据集的相同细胞类型投影到同一潜在空间并聚在一起,有效校正了批次效应。在与其他方法的对比中,scAMZI 在 NMI 和 ARI 指标上也表现更优,能准确分类细胞类型并找到标记基因。
  4. 14 个基准数据集上的性能表现:将 scAMZI 与 9 种方法在 14 个基准数据集上进行比较,scAMZI 在 11 个数据集上获得最高 ARI 值,在 10 个数据集上获得最高 NMI 值。尽管在部分数据集上表现稍逊于其他方法,但整体性能仍优于现有方法,提升了聚类效果。
  5. 细胞注释和可视化:在对 Romanov 和 Human1 数据集进行细胞注释和可视化时,scAMZI 准确地对细胞进行了聚类,与其他方法相比,能更清晰地区分不同细胞类型,减少细胞类型的重叠。
  6. 寻找标记基因和细胞轨迹推断:在 Romanov 数据集上,scAMZI 成功找到了不同细胞类型的标记基因,这些基因在不同细胞类型间表达差异显著。同时,通过分析细胞簇的空间分布和相互关系,scAMZI 初步推断出细胞分化的路径,为研究细胞分化机制提供了有价值的线索。

综合上述研究,scAMZI 模型在 scRNA-seq 数据聚类方面展现出显著优势。它能够同时学习细胞特征和细胞间关系,有效处理数据缺失问题,在多个实验和数据集上都表现出色,计算成本也更低。这一模型为后续的细胞注释、标记基因发现和细胞轨迹推断等下游分析提供了有力支持,有助于科研人员更深入地理解细胞的功能、相互作用以及复杂的生物系统,为生命科学和健康医学领域的研究开辟了新的道路,具有重要的理论和实践意义。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号