
-
生物通官微
陪你抓住生命科技
跳动的脉搏
scE2EGAE:基于可微分边缘采样的端到端细胞图学习图自编码器提升单细胞RNA测序数据分析
【字体: 大 中 小 】 时间:2025年05月28日 来源:Biology Direct 5.7
编辑推荐:
针对单细胞RNA测序(scRNA-Seq)数据因固定KNN图导致信息丢失的问题,吉林大学团队提出scE2EGAE模型,通过可微分边缘采样和Gumbel-Softmax估计器动态学习细胞间关系图,结合ZINB损失与MSE损失优化下游去噪任务。实验证明其在8个数据集上优于7种基线方法,聚类指标(ARI/NMI)提升显著,为GNNs在生物信息学中的应用提供新范式。
单细胞RNA测序(scRNA-Seq)技术虽能揭示细胞异质性,但其数据存在高噪声(如基因检出丢失)和复杂细胞间关系建模的挑战。传统基于图神经网络(GNNs)的方法依赖固定的KNN图,导致信息损失,影响下游分析精度。为此,吉林大学团队在《Biology Direct》发表研究,提出scE2EGAE框架,通过端到端可训练架构动态优化细胞关系图,显著提升数据质量与生物学发现能力。
研究采用三大关键技术:1)深度计数自编码器(DCA)提取细胞隐层特征;2)基于Gumbel-Softmax和直通估计器(STE)的可微分Top-k边缘采样层构建动态细胞图;3)结合ZINB损失与均方误差(MSE)的混合损失函数平衡图学习与去噪任务。实验使用8个公共数据集(如Klein小鼠胚胎细胞、AD患者脑组织数据),对比7种基线方法(MAGIC、scVI等)。
结果部分
去噪性能评估:scE2EGAE在MAE、PCC和余弦相似度(CS)指标上优于基线,如Klein数据集MAE达1.42(SAUCIE为1.28),ILC数据集CS高达0.998,证明其有效保留真实细胞关系。
聚类分析:通过K-means评估,scE2EGAE在ARI(如Zeisel数据集0.8848 vs 原始数据0.8508)和轮廓系数(AD数据集0.4814)上表现优异,UMAP可视化显示更清晰的细胞类型分离。
抗噪性测试:在10%-40%随机掩蔽率下,scE2EGAE性能波动<5%,如Chu数据集40%掩蔽时MAE反降至179.62,凸显鲁棒性。
轨迹推断:SCORPIUS重建的伪时间排序(POS)在Klein数据集达0.8633,优于scVI(0.9013 ARI但POS较低),助力发育动力学研究。
基因标记分析:鉴定到PPM1K(胚胎细胞)、COL1A1(CAF)等关键基因,与既往研究(如Li et al.癌症预后关联)一致,验证生物学意义。
结论与意义
scE2EGAE首次实现细胞图的端到端学习,突破传统GNNs固定拓扑的限制。其创新性体现在:1)STE解决离散采样不可微问题;2)双损失函数协调特征学习与任务优化;3)支持欧式/双曲距离适应不同数据结构。尽管存在大数据集内存消耗的局限,但为单细胞分析提供了新工具,尤其在复杂疾病(如AD、癌症)的细胞互作机制解析中潜力显著。未来结合mini-batch技术和ZINB-GNN损失有望进一步突破规模瓶颈。
生物通微信公众号
知名企业招聘