
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于数据拓扑与对比学习的单细胞深度聚类模型scSCDT:提升细胞类型鉴定精度与稳健性
【字体: 大 中 小 】 时间:2025年09月21日 来源:Expert Systems with Applications 7.5
编辑推荐:
本文提出了一种面向单细胞RNA测序(scRNA-seq)数据的新型深度聚类框架scSCDT,融合ZINB自编码器与拓扑感知对比学习机制,有效克服高维稀疏数据挑战。该方法通过单视图自对比策略避免多视图假阴性问题,结合软聚类与伪标签优化机制,在十项真实数据集上显著提升聚类精度与细胞类型识别可靠性。
方法论
本节首先介绍scRNA-seq数据的基本概念与研究数据集,明确单细胞聚类任务的定义与常用评估指标。随后详细阐述scSCDT模型架构(如图1所示),主要包括细胞嵌入与拓扑结构学习、拓扑引导的伪标签对比学习、以及软硬聚类联合优化三个核心模块。
实验设置与基线方法
scSCDT的训练分为两个主要阶段。第一阶段聚焦于细胞拓扑与嵌入的联合学习:采用ZINB自编码器(编码器结构为[基因数, 512, 256, 64])学习原始细胞拓扑,使用Adam优化器训练300轮,学习率设为10?3。第二阶段开展基于拓扑结构的自对比聚类优化,通过构造高质量样本对增强模型判别力。
结论
本研究针对scRNA-seq数据提出深度聚类模型scSCDT,通过ZINB去噪自编码器学习细胞低维嵌入与拓扑结构,并基于拓扑构建判别矩阵生成正负样本对。该模型在单视图内进行自监督对比学习,无需数据增强即可有效避免假阴性问题,最终通过软硬聚类协同优化显著提升细胞类型划分的准确性。
未来工作
当前大规模单细胞RNA测序数据集(包含数十万至百万级细胞)的深度聚类仍面临挑战。未来我们将重点探索模型在大规模数据上的扩展性与鲁棒性,特别是优化N×N相似矩阵的内存存储瓶颈,开发更高效的计算策略以支持超大规模单细胞研究。
生物通微信公众号
知名企业招聘