基于自适应正采样图对比学习的单细胞RNA测序数据可解释聚类方法IGCLAPS

【字体: 时间:2025年07月22日 来源:Bioinformatics 4.4

编辑推荐:

  研究人员针对单细胞RNA测序(scRNA-seq)数据聚类中细胞关系利用不足的问题,开发了自适应正采样图对比学习方法IGCLAPS。该方法通过图Transformer学习低维嵌入,结合双头对比学习模块和动态正采样策略,在12个真实数据集上实现了优于9种对比方法的聚类性能(ARI/NMI/ACC),并生成可解释的基因表达模式,为细胞异质性研究提供了新工具。

  

单细胞RNA测序技术革命性地改变了我们研究生命过程的方式,它能在单个细胞水平揭示基因表达的微妙差异。然而,这项技术产生的数据具有极高的维度、严重的稀疏性和显著的噪声,使得准确识别细胞亚群成为重大挑战。传统聚类方法如PCAReduce和SC3依赖统计假设,而深度学习方法如scDeepCluster又缺乏可解释性。更关键的是,现有对比学习方法难以准确界定"真正相似"的细胞对——要么仅用单一正样本对,要么简单将表达谱相似的细胞视为同类,这可能导致生物学意义上的误判。

针对这些瓶颈,云南大学信息科学与工程学院的研究团队在《Bioinformatics》发表了创新性研究。他们开发的IGCLAPS方法首次将自适应正采样机制引入图对比学习框架,通过动态整合基因表达相似性和软聚类标签,实现了细胞聚类精度与可解释性的双重突破。这项研究不仅为单细胞数据分析提供了新范式,其构建的动态邻域识别策略更为对比学习领域贡献了普适性解决方案。

研究采用三大核心技术:1)基于50%随机掩码的数据增强策略生成对比视图;2)4头注意力图Transformer网络提取低维嵌入;3)创新性双头对比学习模块——实例头采用邻域对比损失,聚类头结合AGC损失和正则化项。特别设计的自适应正采样模块(APS)通过λ=0.5的相似度阈值动态筛选高置信度正样本,最终在12个跨物种数据集(300-10,000+细胞量级)上验证性能。

【数据预处理与增强】

采用SCANPY流程进行质量控制,保留3000个高变基因后,通过随机掩码50%基因表达生成对比视图。值得注意的是,研究团队保持KNN图结构不变以避免拓扑破坏,这种稳健处理为后续分析奠定基础。

【图Transformer网络】

创新采用多头图注意力机制(式1-4),其中查询矩阵Qk,l、键矩阵Kk,l和值矩阵Vk,l共同学习细胞间拓扑关系。通过残差连接和层归一化,网络在32维嵌入空间有效捕获细胞异质性。

【双头对比学习】

实例头通过改进的邻域对比损失(式5-6)将余弦相似度s(·)与温度参数τ=0.5结合,同时考虑跨视图样本和KNN邻域样本。聚类头则引入分配图对比损失(式7)和熵正则化(式8),防止聚类退化。

【自适应正采样】

该模块(式13-14)通过软聚类标签gi(v)与原始KNN图的哈达玛积,实现表达相似性与聚类一致性的双重验证。如图6所示,其PPV/NPV随训练逐步提升,证实了正样本筛选的有效性。

在Darmanis人脑数据集上,IGCLAPS以0.765 ARI显著优于scGAC(0.676);在复杂的小鼠胰腺数据(Baron-m)中,t-SNE可视化显示其能准确识别β细胞簇(图3)。差异表达分析证实,通过积分梯度法识别的基因与Seurat结果重叠率达82%(图4),其中LMX1A等标记基因的表达模式与发育生物学认知高度一致(图5B)。在最具挑战的LaManno人胚胎干细胞数据中,虽然ARI仅0.576,但Sankey图(图5C)揭示其能捕捉神经祖细胞(eNb)与放射胶质细胞(eRgla)的发育关联。

这项研究通过自适应正采样机制解决了对比学习在单细胞领域的核心痛点——正样本界定模糊问题。实验证明,移除APS模块会使Bladder数据集ARI从0.900降至0.886(表1),而同时移除聚类头更导致性能骤降至0.787。值得注意的是,IGCLAPS在未知真实簇数时仍保持稳健,如Zanini数据通过轮廓系数确定簇数后ARI反提升12%。研究者特别指出,当前KNN图的邻域数k仍需人工调整,未来结合空间转录组等多组学数据可能带来更大突破。这项工作不仅为单细胞分析提供了新工具,其"表达相似性+聚类一致性"的双重验证思路更为生物医学领域的对比学习应用树立了标杆。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号