scAFGCC:无需数据增强的图对比聚类方法在单细胞RNA测序数据分析中的创新应用

【字体: 时间:2025年10月11日 来源:Neurocomputing 6.5

编辑推荐:

  本文提出scAFGCC(无需数据增强的图对比聚类方法),通过整合图卷积网络(GCN)与对比学习,有效解决单细胞RNA测序(scRNA-seq)数据高维稀疏性挑战。该方法无需数据增强和负样本,利用局部结构信息与全局语义特征实现精准细胞分群,在24个模拟和13个真实数据集上均展现优异性能。

  
Highlight
scAFGCC框架
scAFGCC的工作流程如图1所示,包含三个核心组件:重建模块、无需数据增强的图对比学习模块和聚类模块。具体而言,重建模块通过重建基因表达矩阵和邻接矩阵对模型进行预训练,以加速训练过程并捕获有利于聚类的特征。无需数据增强的图对比学习模块利用局部和全局语义信息来识别正样本,无需传统的数据增强策略。
单细胞RNA测序数据集
为全面评估模型性能,我们收集了24个模拟数据集和13个真实数据集。对于模拟数据集,使用R包"Splatter"生成12个平衡数据集和12个不平衡数据集。数据集的平衡性主要根据细胞簇是否具有相同大小来确定。平衡数据集包含4、8、12或16个细胞簇,每个簇包含250个细胞。每个细胞有2500个基因,数据采用对数归一化处理。
评估指标
聚类评估指标可分为外部评估指标和内部评估指标。外部评估指标利用已知数据标签或类别信息来评估聚类结果的质量。本文采用调整兰德指数(ARI)和标准化互信息(NMI)作为外部评估指标来评估模型性能。ARI通过比较所有样本对的分配相似性(忽略排列顺序)来评估聚类质量,而NMI通过量化聚类结果与真实标签之间共享的信息量来衡量一致性。
结果
为评估scAFGCC的性能,我们选择了九种最先进的方法进行比较,包括基于PCA降维的传统K-means和Seurat、半软聚类方法SOUP、多核相似性学习方法SIMLR,以及其他三种基于深度学习的方法。对比方法的详细信息见补充表S4。scAFGCC使用PyTorch框架在Python 3中实现,在线编码器和目标编码器均采用两层GCN架构。模型训练采用Adam优化器,学习率设置为0.0001。聚类中心数设置为真实细胞类型数,特征维度设置为256。所有实验均在配备NVIDIA GeForce RTX 3090 GPU的服务器上进行。
结论
高通量单细胞RNA测序为细胞异质性、稀有细胞鉴定、细胞状态的深入表征以及单细胞水平的生物过程动态提供了宝贵见解。在scRNA-seq数据分析领域,主要且关键的任务之一是通过基于分子谱的准确细胞分群来识别细胞类型。许多基于深度学习和对比学习的聚类方法已被开发用于scRNA-seq数据分析,并取得了显著成果。然而,这些方法通常严重依赖数据增强技术,而数据增强策略的设计需要大量领域专业知识,且其有效性高度依赖于增强方案的选择。此外,负样本的使用可能导致类冲突问题,即语义相似的样本可能在特征空间中被推远。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号