基于深度学习嵌入统计框架的单细胞RNA测序数据降噪新方法ZILLNB

《BMC Bioinformatics》:Denoising single-cell RNA-seq data with a deep learning-embedded statistical framework

【字体: 时间:2025年11月20日 来源:BMC Bioinformatics 3.3

编辑推荐:

  本研究针对单细胞RNA测序(scRNA-seq)数据中存在的技术噪音和零膨胀问题,开发了ZILLNB(Zero-Inflated Latent factors Learning-based Negative Binomial)计算框架。该模型将零膨胀负二项(ZINB)回归与深度生成建模相结合,通过InfoVAE-GAN集成架构学习细胞和基因水平的潜在表征。在多个scRNA-seq数据集上的评估表明,ZILLNB在细胞类型分类任务中ARI和AMI提高0.05-0.2,在差异表达分析中AUC-ROC和AUC-PR提高0.05-0.3,并能有效识别特发性肺纤维化中的成纤维细胞亚群,为单细胞数据分析提供了强大工具。

  
在生命科学研究领域,单细胞RNA测序(scRNA-seq)技术如同一把精密的"细胞显微镜",让科学家能够以前所未有的分辨率观察细胞世界的多样性。这项技术不仅帮助我们发现新的细胞类型,还揭示了健康与疾病状态下细胞间的微妙差异。然而,这把"显微镜"的镜头常常被技术噪音所模糊——大量零计数的出现、细胞特异性误差以及实验偏差等问题,严重制约了数据的准确性和可靠性。
当前的单细胞数据分析方法面临着两难选择:统计方法虽然解释性强,但难以捕捉复杂的非线性关系;深度学习方法灵活性高,却容易过拟合且缺乏机制解释性。特别是在样本量有限的情况下,这一问题更加突出。这种困境促使研究人员思考:能否开发一种融合两者优势的新方法,既能保持统计模型的稳健性,又能利用深度学习的强大表征能力?
在《BMC Bioinformatics》上发表的最新研究中,Luo等人给出了肯定答案。他们开发的ZILLNB框架巧妙地将零膨胀负二项(ZINB)回归与深度生成建模相结合,为单细胞数据降噪提供了全新解决方案。
关键技术方法
研究团队采用集成InfoVAE-GAN模型进行流形学习,以最大均值差异(MMD)替代传统KL散度作为正则化器。ZILLNB模型将基因表达计数建模为ZINB分布,通过期望最大化(EM)算法迭代优化潜在表征和回归系数。该方法使用来自公共数据库的小鼠脑皮层、人类PBMC、小鼠细胞图谱、乳腺癌细胞系和特发性肺纤维化患者等多个scRNA-seq数据集进行验证,通过调整兰德指数(ARI)、调整互信息(AMI)和受试者工作特征曲线下面积(AUC-ROC)等指标评估性能。
增强细胞分类能力
研究团队在多个数据集上系统评估了ZILLNB的性能。在小鼠脑皮层数据集和人类PBMC数据集上,ZILLNB在细胞类型分类任务中表现出色,其调整兰德指数(ARI)和调整互信息(AMI)相较于VIPER、scImpute、DCA等方法提高了0.05-0.2。
特别是在大规模的小鼠细胞图谱(MCA)数据集上,ZILLNB同样展现出优越性能。经过ZILLNB降噪后,t-SNE图谱中生殖腺相关细胞亚型(包括黄体细胞、卵丘细胞、颗粒细胞、Leydig细胞和Sertoli细胞)的边界更加清晰,聚类评估指标也证实了ZILLNB的改进效果。
潜在因子保留细胞和基因水平信息
研究的一个重要发现是,ZILLNB学习到的潜在因子矩阵U和V能够有效保留生物信息。矩阵V成功捕捉了细胞群体的底层结构,而矩阵U则通过随机矩阵理论分析证实其编码的是结构化潜在信号而非随机噪声。
在小鼠胚胎干细胞(mESC)数据集上的进一步验证表明,ZILLNB能够清晰区分G1、S和G2/M细胞周期阶段,其聚类性能优于COMSE、Scran Cyclone和Seurat细胞周期评分等方法。
提升差异表达基因识别能力
在差异表达基因(DEGs)识别任务中,研究团队通过乳腺癌细胞系数据集进行了系统评估。ZILLNB在假发现率(FDP)控制和真阳性率(TPR)方面均表现优异,其AUC-ROC和AUC-PR值相较于对数标准化基线方法和DCA、ALRA等插补方法有显著提升。
即使在tDEGs比例从0%到50%的系统变化中,ZILLNB仍能保持稳定的性能优势,这证明了其在捕捉真实生物信号方面的可靠性。
识别成纤维细胞亚群
在特发性肺纤维化(IPF)数据集的应用中,ZILLNB成功识别了经历成纤维细胞-肌成纤维细胞转化(FMT)的特定成纤维细胞亚群。这些细胞表现出肌成纤维细胞标志物(MYO1E、H19、COL3A1、COL1A1)的高表达,且基因本体(GO)富集分析显示其在伤口愈合过程中显著富集。
与基于原始数据的Seurat分析流程相比,ZILLNB能够更清晰地界定肌成纤维细胞富集亚群,为研究IPF发病机制提供了更精确的工具。
研究结论与意义
ZILLNB框架通过将学习到的潜在表征与ZINB回归相结合,成功将降噪问题转化为带有学习协变量的回归问题。该方法动态捕获基因和细胞水平的复杂多变量结构,融合了深度学习的强大表征能力与ZINB模型的可解释性和稳健性。
与以往依赖用户定义协变量或限制协变量维度的ZINB方法不同,ZILLNB利用神经网络架构自主学习复杂的基因水平和细胞水平结构,无需预先确定的协变量约束。研究证明,细胞水平潜在因子V捕获主要细胞类型结构,而基因水平因子U保留与特定细胞类型相关的内在功能模块,两者的结合使用能够获得优于单独使用任一成分的性能。
该研究的创新之处在于为解释复杂单细胞数据提供了强大分析框架,具有广泛的应用潜力。未来可扩展至伪时间轨迹分析、基因调控网络推断以及批量RNA-seq或scATAC-seq数据分析等多个方向。ZILLNB通过融合深度学习嵌入数据和统计框架,为单细胞数据建模提供了新视角,有望在未来的研究中发挥关键作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号