
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于自对比神经网络与深度拓扑挖掘的scRNA-seq数据聚类方法scSCDT
【字体: 大 中 小 】 时间:2025年09月21日 来源:Expert Systems with Applications 7.5
编辑推荐:
本文提出了一种创新的单细胞转录组聚类模型scSCDT,通过结合ZINB自编码器与拓扑结构挖掘技术,有效解决了scRNA-seq数据高维稀疏性带来的挑战。该模型采用单视图自对比学习策略避免多视图假阴性问题,并融合软硬聚类优化目标,在十组真实数据集上显著提升了聚类精度与细胞类型识别可靠性。
方法
本节首先介绍scRNA-seq数据的基本概念及本研究使用的数据集,定义单细胞聚类任务并列出常用评估指标。随后详细阐述scSCDT模型框架(如图1所示),主要包括细胞嵌入与拓扑学习、拓扑引导的伪标签对比学习以及软硬聚类的协同优化过程。
实验设置与基线方法
scSCDT的训练分为两个核心阶段:第一阶段聚焦细胞拓扑与嵌入的联合学习,采用ZINB自编码器(编码器结构为[基因数, 512, 256, 64])学习原始细胞拓扑,使用Adam优化器以10?3学习率训练300轮;第二阶段开展拓扑引导的自对比聚类学习。
结论
本研究针对scRNA-seq数据提出深度聚类模型scSCDT,通过ZINB去噪自编码器学习细胞嵌入与拓扑结构,并基于拓扑构建判别矩阵生成正负样本对。该模型在单视图内进行自监督对比学习,无需数据增强即可提升聚类判别力。
未来工作
当前大规模单细胞RNA-seq数据集(含数十万至百万级细胞)的深度聚类仍面临挑战。未来将重点研究模型在此类数据上的可扩展性与鲁棒性,尤其致力于降低N×N相似矩阵的内存消耗瓶颈。
作者贡献声明
周重洋:研究设计、方法实现、软件编写与初稿撰写;唐斌:初稿撰写、验证与可视化;陈飞宇:资金获取、监督与审稿;王伟:调研;赵上上:形式化分析;余南军:调研。
利益冲突声明
作者声明不存在可能影响本研究的财务或个人利益冲突。
生物通微信公众号
知名企业招聘