BiAEImpute:基于双向自编码器的单细胞转录组学高保真缺失值插补新方法

【字体: 时间:2025年09月27日 来源:BMC Genomics 3.7

编辑推荐:

  为解决单细胞RNA测序(scRNA-seq)数据中因dropout事件导致的基因表达值缺失问题,研究人员开发了基于双向自编码器的插补模型BiAEImpute。该模型通过整合细胞和基因特征,显著提升了缺失值恢复的准确性,并有效改善了细胞聚类、标记基因识别和发育轨迹推断等下游分析效果,为单细胞研究提供了可靠工具。

  
单细胞RNA测序(scRNA-seq)技术能够揭示细胞转录组的异质性和动态变化,已成为生物医学研究的重要工具。然而,由于技术限制,scRNA-seq数据中存在大量“dropout事件”,即实际表达的基因被错误检测为零值。这些缺失值严重影响下游分析的准确性,例如细胞类型鉴定、标记基因识别和发育轨迹重建等。尽管已有多种插补方法被提出,包括基于平滑处理(如MAGIC)、概率模型(如scImpute)、矩阵分解(如ALRA)和深度学习(如deepImpute)的方法,但它们往往难以同时捕捉细胞间和基因间的复杂关系,或会引入额外偏差。因此,开发一种能够精准恢复缺失值且保持生物学变异的方法迫在眉睫。
为解决这一问题,张义等人提出了一种名为BiAEImpute的新型插补方法,该研究发表于《BMC Genomics》。BiAEImpute基于双向自编码器架构,通过行方向(细胞-wise)和列方向(基因-wise)的自编码器分别学习细胞和基因的特征,并利用其协同整合进行缺失值估计。该方法专注于插补零值,而非所有基因的表达值,从而减少了潜在偏差。实验证明,BiAEImpute在多个真实数据集上均优于现有方法,显著提升了下游分析的准确性。
作者采用的主要技术方法包括:使用四个真实scRNA-seq数据集(Zeisel、Romanov、Usoskin和Klein)和Splatter模拟数据集进行模型训练与验证;通过最大最小归一化预处理数据;构建双向自编码器模型,包含行-wise和列-wise编码器-解码器结构,并采用三种损失函数(行损失、列损失和交叉损失)进行优化;使用Adam优化器和PyTorch框架实现模型训练;通过Pearson相关系数(PCC)、决定系数(R2)和均方根误差(RMSE)等指标评估插补准确性;利用Seurat进行细胞聚类分析(采用ARI、NMI和Purity指标),SCORPIUS进行发育轨迹推断(采用Kendall秩相关系数)。

BiAEImpute准确恢复基因表达水平

通过在不同缺失率(20%、40%、60%)下对四个数据集的测试,BiAEImpute在PCC、R2和RMSE指标上均表现最佳,其优势在高缺失率场景下尤为明显。此外,在模拟数据集中,BiAEImpute对MCAR(完全随机缺失)、MAR(随机缺失)和MNAR(非随机缺失)三种缺失机制均表现出强鲁棒性。

BiAEImpute促进细胞亚群识别与可视化

在Zeisel数据集上,非插补数据的聚类结果无法区分微胶质细胞和寡突胶质细胞,而经BiAEImpute插补后,七种细胞类型被清晰分离,聚类指标(ARI、NMI、Purity)显著提升。其他方法如MAGIC和ALRA则出现细胞类型误分类问题。

BiAEImpute提升标记基因识别能力

在Zeisel数据集中,非插补数据因缺失值导致标记基因(如Gm11549、Tbr1、Spink8等)表达水平被低估,而BiAEImpute成功恢复了这些基因的表达模式,与真实数据高度一致。

BiAEImpute辅助细胞发育轨迹推断

在包含时间序列的Klein数据集上,非插补数据无法重建正确的发育轨迹,而BiAEImpute插补数据准确推断出细胞伪时间顺序,其Kendall秩相关系数(0.867)高于其他基准方法。

运行时间和内存消耗比较

BiAEImpute在运行时间和内存使用上均表现高效,其计算资源消耗与数据规模呈线性关系,适用于大规模scRNA-seq数据集。

消融研究

通过移除行-wise或列-wise自编码器的对比实验,验证了双向架构的必要性,两者缺一均会导致性能下降。
研究表明,BiAEImpute是一种高效且稳健的scRNA-seq数据插补方法,其双向自编码器设计能够同时捕捉细胞和基因的关联特征,精准恢复缺失值,并显著提升下游分析(如聚类、标记基因识别和轨迹推断)的可靠性。尽管该方法目前将所有零值视为缺失处理,未来可探索概率性插补策略以区分真实生物零值与缺失值。此外,加权融合和纵向数据整合可能是进一步改进的方向。BiAEImpute为单细胞研究提供了有力工具,有助于更深入地解析细胞异质性和发育动力学。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号