结构引导的单细胞多模态软深度聚类分析框架(sgSDC)的提出与应用

【字体: 时间:2025年09月18日 来源:Frontiers in Microbiology 4.5

编辑推荐:

  本文提出了一种创新的结构引导软深度聚类(sgSDC)框架,通过整合scRNA-seq和scATAC-seq多模态数据,采用全局注意力机制进行信息融合,并结合对比学习和软聚类损失函数,显著提升了单细胞聚类在准确性(ACC)、归一化互信息(NMI)和调整兰德指数(ARI)方面的性能,为解析细胞异质性和发育动态提供了强大工具。

  

1 引言

细胞作为生命的基本单元,在生物功能中扮演关键角色。随着单细胞测序技术的快速发展,scRNA-seq和scATAC-seq等多模态数据日益丰富,推动了细胞特征差异表达和调控机制的研究。多模态联合分析不仅有助于细胞分类和特征识别,还能深化对细胞发育过程的理解。然而,单细胞数据处理仍面临高维度和测量误差等挑战,这些误差可能导致基因表达信息丢失,进而影响临床结论的准确性。

深度学习技术的进步为应对这些挑战提供了新途径,能够有效将特征映射到低维空间并去除噪声,准确揭示生物信号。在单细胞分析领域,深度神经网络尤其是自编码器,已被广泛研究用于提取单细胞数据的降维表示。例如,DCA方法利用负二项噪声模型改善数据质量,在数据恢复和运行速度上优于现有方法;scGMAI则通过数据插补策略减少信息丢失,构建用于细胞聚类的特征表达矩阵。

获取细胞特征表达矩阵后,聚类成为单细胞分析流程中最关键的步骤,因为所有后续分析都基于聚类定义的亚群。初始聚类分类的错误会导致后续错误传播,使实验结果失去意义。因此,开发准确有效的聚类算法至关重要。许多研究者致力于此,不断提出创新研究,如图谱自编码器方法(graph-sc、scASGC、scGAC)将单细胞数据转化为细胞图谱,捕捉细胞间相互作用;而对比学习方法(contrastive-sc、scDCCA、scDECL)通过对比学习优化自编码器,增强样本间相似性和差异性的表示。

尽管已有进展,现有方法仍忽视了两个关键问题:一是多测序结果信息的整合。大多数算法使用模态特定编码器网络学习每种测序结果的压缩表示,然后进行简单融合以获得“共识表示”。这种强制融合常导致噪声和信息冗余,造成次优聚类结果。为缓解模态特定私有信息和共享信息间的冲突,一些方法采用了不同的对齐模型,如使用KL散度对齐不同测序结果的表示分布,但这些对齐可能无效,因为scRNA数据中的簇可能与scATAC数据中的不同簇对应。其他研究者提出利用对比学习进行数据增强,但这些方法主要依赖细胞级样本,将同一细胞在不同模态下的表示视为正实例,其他所有细胞视为负实例。对比学习的目标与聚类目标存在内在冲突,因为这种优化可能驱使同一簇内的细胞相互远离。

另一个问题涉及细胞数据的特性。如图1所示,随着时间线推进,细胞身份可能演变。在聚类任务中,细胞身份对应簇标签,表明一个细胞可能属于多个簇。然而,当前几乎所有单细胞聚类算法都实施硬聚类,每个细胞被限制在一个类别中。例如,尽管scDFC整合了多维度信息,但仍将细胞限制仅与一个簇关联。这种刚性分类常无法捕捉细胞状态的连续和过渡状态,导致次优聚类结果。相反,软聚类允许细胞以不同隶属度参与多个簇,从而提供更灵活准确的分类方法。在单细胞分析领域,软聚类通常被认为比硬聚类更合适,但适合多模态聚类的软聚类算法仍未被探索。

针对上述两个问题,我们开发了结构引导软深度聚类(sgSDC)网络,这是将软聚类应用于多模态单细胞聚类的开创性尝试。具体而言,我们的模型由两个模块组成:第一个模块是结构引导信息融合和对比学习模块,基于全局结构信息自适应分配scRNA和scATAC模态间的权重,并采用对比学习缩小模态特定细胞表示与共识表示间的距离;第二个模块是软聚类优化模块,通过将软聚类概念整合到传统KL散度损失中,开发了一种新颖的软聚类损失函数,鼓励细胞被分配到不同簇,从而优化细胞表示。实验证据证实了所提算法的优越性。本工作的核心贡献总结为三点:提出在单细胞多模态聚类领域应用软聚类,通过结构引导信息聚合和对比学习实现高质量单细胞表示;开发了利用全局结构信息的信息融合方法,以及对齐模态特定和一致性表示的对比学习方法,并开发了允许细胞以不同概率关联不同簇的软聚类损失方案;进行了广泛实验,包括性能比较、消融研究和参数敏感性分析,以确认sgSDC在当前单细胞多模态聚类领域的有效性。

2 材料与方法

方法部分详细描述了sgSDC模型,首先通过问题定义概述单细胞多模态聚类中的具体数学公式,接着联合信息聚合解释了跨模态信息的有效融合,联合优化讨论了模型优化策略,总损失函数描述了损失组件的整合以增强聚类,模型评估提出了三种聚类评估指标,时间复杂性分析检查了其计算性能,确保对模型功能的全面理解。

2.1 问题定义

sgSDC模型的工作流程如图2所示。为确保清晰,首先提供两种数据类型scRNA和scATAC的数学定义和描述。具体而言,scRNA模态的数据表示为X1,scATAC模态的数据表示为X2(算法1)。它们可表示如下:

X1 = {x11, ..., xn1} ∈ ?n×d1,

X2 = {x12, ..., xn2} ∈ ?n×d2。 (1)

其中d1表示scRNA模态的特征维度,指示该模态中的特征数量,d2对scATAC模态做同样表示。单细胞数据集由n个独立样本组成,每个样本包含来自两个不同模态scRNA和scATAC的信息。

由于测序数据的限制,当前大多数公开可用的单细胞多模态数据集涉及两种模态,我们计划未来研究包含多于两种模态的数据集。这种多模态数据结构使我们能够从多个角度分析和理解单细胞数据,从而通过包含额外信息潜在提高聚类分析的准确性。

2.2 联合信息聚合

与常见实践一致,我们首先使用自编码器压缩特征。自编码器是一种无监督学习模型,通过将输入数据映射到低维潜在空间来压缩特征。在我们定义的生物医学上下文中,使用两个并行编码器, respective映射函数Fθ11和Fθ22,代表scRNA和scATAC模态。每个编码器配置有自己的参数集θ1和θ2。输入数据X1和X2同时通过这些编码器映射到中间表示,如下所示:

Zi1 = Fθ11(Xi1),

Zi2 = Fθ22(Xi2)。 (2)

其中Z1和Z2分别表示scRNA和scATAC的细胞表示。此映射过程促进了数据内关键信息的逐步提取和压缩,同时消除了噪声和无关细节。通过保留基本特征并降低数据维度,我们显著提高了后续聚类任务的效率,从而降低了计算复杂性。

特征压缩完成后,我们将两种模态的数据拼接形成组合表示。类似地,我们设计了一个复合特征变换矩阵WR来映射此组合表示。数学公式如下:

Z = [Z1; Z2], WR = [WR1:; WR2:]。 (3)

在典型的特征变换过程中,结合Z和WR通常足够。然而,这种映射常导致显著的信息冗余,因为Z中的元素仅是拼接而成,并非所有元素都被视为同等重要。因此,根据全局结构信息分配注意力至关重要。为启动此过程,我们首先建立一个基本映射,如下所述:

[R1:; R2:] = [z11 z12; z21 z22; ... ; zn1 zn2] [WR1:; WR2:]。 (4)

接下来,为各种模态的表示分配注意力权重,我们需要计算一个全局结构关系矩阵。此矩阵S的维度对应?n×n。计算过程如下:

S = softmax( (Z W1 (Z W2)T ) / √d )。 (5)

其中W1和W2是专门为额外映射设计的可训练矩阵。d表示变换后的统一特征维度。在每个信息融合过程中,原始特征被重新映射到三个不同的空间。一个空间保留供后续使用,而另外两个用于构建先前描述的全局结构关系矩阵S。

接下来,我们使用S ∈ ?n×n为先前保留的特征矩阵R分配权重。此过程本质上是S和R的乘积。然而,如果学习的S不准确,网络性能可能显著恶化。为防止网络退化,我们保留初始特征Z,最终形式将Z与S和R的乘积结合,然后通过深度神经网络处理以完成融合。最终的融合细胞表示记为?,计算过程数学描述如下:

? = W3( Z + ∑j=1n Sij Rj: ) + b3。 (6)

2.3 联合优化

整合scRNA和scATAC测序模态的数据表示后,所得的共识表示当前质量较差,需要进一步优化。我们精心设计了三个独立的优化损失函数,旨在通过它们的协作效应显著提高细胞表示的质量。这三个损失函数是:重建损失、对比损失和软聚类损失。

2.3.1 重建模块

与常见实践一致,sgSDC网络将低维空间中的特征映射回原始特征空间。此过程确保重建特征在结构和信息上与原始特征保持高度一致性。通过确保压缩信息的准确性同时消除冗余,sgSDC网络显著增强了其压缩特征的有效性。实现此过程的数学公式如下:

X?i1 = Gη11(Zi1) = Gη11(Fθ11(Xi1)),

X?i2 = Gη22(Zi2) = Gη22(Fθ22(Xi2))。 (7)

其中gη11和gη22分别作为scRNA和scATAC模态的解码器。提出的重建损失定义如下。

Lr = ∑i=1n ‖X?i1 - gη11(fθ11(X1)) ‖22 + ∑i=1n ‖X?i2 - gη极2(fθ极2(Xi2)) ‖22。 (8)

2.3.2 对比模块

在单细胞多模态分析中,共识表示?必须与其模态特定细胞表示H1和H2在同一簇内保持紧密对齐。为实现此目标,我们引入了强大的对比学习方法。对比学习的本质是通过最大化正样本对之间的相似性并最小化负样本对之间的相似性来学习数据的内在结构和特征表示。在我们的研究中,首先计算共识表示?与每个模态特定表示Hm之间的相似性。m可以取两个值,1或2,代表与H1和H2相关的scRNA和scATAC测序模态。此相似性计算可表示如下:

D(?i:, Him) = ( ?i:T Hi:m ) / ( ‖?i:‖ ‖Hi:m‖ ), where m ∈ {1,2}。 (9)

基于上述相似性,我们进一步定义本研究中提出的结构引导对比损失如下:

Lc = -1/(2n) ∑i=1nm=12 log( eD(?i:, Him)/T / ( ∑j=1n e(1-Sij) D(?i:, Hjm)/T - e1/T ) )。 (10)

在此公式中,T表示对比学习中定义的温度超参数,用于控制相似性的尺度。S代表全局结构关系矩阵。D(?i:, Him)是先前定义的相似性距离。

2.3.3 软聚类模块

传统聚类算法要求每个细胞被分类到单个簇标签,称为硬聚类。相反,软聚类允许数据点同时属于多个粗粒度标签。在进行之前,我们介绍最常见的聚类损失函数,如下:

LKullback-Leibler = ∑ij pij log( pij / qij )。 (11)

上述KL散度损失在各种深度单细胞聚类研究中被广泛使用。其基本原理涉及使用学生t分布计算qij。随后,目标分布pij从qij导出,并应用KL散度损失以最小化qij和pij之间的距离。这种方法提高了表示的质量。

在我们的设计中,为符合细胞发育过程中表现的软聚类特性,我们创新性地用γij替换传统pij,以构建科学辩论的支柱和我们研究中定义的协议框架,如下:

Ls = ∑ij γij log( γij / qij )。 (12)

其中γij代表软聚类的概率分布,通过优化以下软聚类目标计算,表达如下:

minγijj=1k γijm ‖z?i - μj2,

s.t. ∑j=1k γij = 1。 (13)

此目标涉及最小化加权距离,其中加权因子γij考虑每个数据点到簇中心的隶属度。指数m放大了较低隶属度簇的惩罚,从而增强了算法的鲁棒性。它是一个大于1的实数,称为控制指数,调节聚类中软分配的程度。k表示簇的总数,z?i表示第i个数据点,μj第j个簇的中心。

2.4 总损失函数

鉴于提出的sgSDC模型包含三个并行损失函数:重建损失、对比损失和软聚类损失,我们在总损失函数中引入了两个额外的超参数α和β,以控制每个损失组件的权重。这有助于模型性能的最佳调优。因此,总损失函数可表示如下:

? = ?r + α ?c + β ?s。 (14)

2.5 模型评估

三种广泛使用的聚类评估指标用于评估模型,具体而言:准确性(ACC)、归一化互信息(NMI)和调整兰德指数(ARI),它们的定义如下。ACC旨在测量分类的正确性,定义如下:

ACC = ( ∑i=1n I(yi = ?i) ) / n。 (15)

NMI建立在簇和真实分类之间共享信息程度的基础上,定义如下:

NMI = 2 MI(U,V) / ( H(U) + H(V) )。 (16)

ARI基于聚类结果与地面真相之间的相似性构建,定义如下:

ARI = ( ∑ij (nij choose 2) - [ ∑i (ai choose 2) ∑j (bj choose 2) ] / (n choose 2) ) / ( 1/2 [ ∑i (ai choose 2) + ∑j (bj choose 2) ] - [ ∑i (ai choose 2) ∑j (bj choose 2) ] / (n choose 2) )。 (17)

2.6 时间复杂性分析

sgSDC模型的时间复杂性由O( ∑m=12 n2 dm I + ∑m=12 n dm2 I + ∑m=12 n dm I )给出,其中I代表训练过程的迭代次数。具体而言,训练期间降维相关的计算成本为O( ∑m=12 n dm I ),对于信息融合模块,它为O( ∑m=12 n2 dm I + ∑m=1 n dm2 I )。对比学习模块产生O( ∑m=12 n2 dm I )的成本。从时间复杂性的角度来看,该算法与n的二次项密切相关,这意味着时间复杂性将随着n的增加而二次增加。

3 实验

我们精心设计了一套全面的实验,旨在彻底评估我们模型的性能。为确保研究的逻辑进展,我们的实验组织围绕以下四个关键研究问题(RQ):(1)sgSDC在单细胞深度聚类背景下是否优于其他最先进的方法?(2)sgSDC提出的对比学习策略是否有效?(3)sgSDC提出的软聚类策略是否有效?(4)sgSDC的性能是否随不同超参数显著变化?

3.1 实验设置

3.1.1 基准数据集资源和预处理

如表1所示,四个公开可用的单细胞基准数据集用于评估我们研究中提出的软件。一些数据集已经过处理;因此,未执行进一步处理。对于没有事先质量控制的那些,我们使用Scanpy包选择了前2000个特征。此外,数据资源的链接如下所列:

? D1: https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE128639

? D2: https://www.10xgenomics.com/resources/datasets

? D3: https://github.com/YosefLab/totalVI_reproducibility

? D4: https://www.10xgenomics.com/resources/datasets

3.1.2 基线方法

我们将sgSDC与八种竞争性方法进行比较,这些方法因其基础意义、近期贡献或广泛的引用指标而被选为该领域的代表性方法。具体细节概述如下:

? k-means: “Some Methods for Classification and Analysis of Multivariate Observations” (MacQueen et al., 1967)

? Spectral Clustering: “A Tutorial on Spectral Clustering” (Von Luxburg, 2007)

? FastMICE: “Fast Multi-View Clustering Via Ensembles: Toward Scalability, Superiority, and Simplicity” (Huang et al., 2023)

? EEOMVC: “Structured Graph Learning for Scalable Subspace Clustering: From Single View to Multiview” (Wang et al., 2023a)

? AMGL: “Parameter-Free Auto-Weighted Multiple Graph Learning: A Framework for Multiview Clustering and Semi-Supervised Classification” (Nie et al., 2016)

? OMVFC: “Latent information-guided one-step multi-view fuzzy clustering based on cross-view anchor graph” (Zhang et al., 2024)

? scEMC: “Effective multi-modal clustering method via skip aggregation network for parallel scRNA-seq and scATAC-seq data” (Hu et al., 2024)

? scMVAE: “Deep-joint-learning analysis model of single cell transcriptome and open chromatin accessibility data” (Zuo and Chen, 2021)

3.1.3 训练细节

实验环境建立在运行Ubuntu 22.04 LTS的服务器上,能够最佳利用机器性能。硬件规格包括CPU:Intel Core i7-6800K,64GB DDR4内存和NVIDIA TITAN Xp图形关键。关于网络参数,瓶颈层设置为64,两种模态融合产生的维度建立在128。软聚类控制系数m设置为1.5。网络经历了200轮预训练,随后50轮训练。实施了早期停止机制,如果在20个epoch内没有改进则停止训练。学习率设置为0.0005。使用的Python版本为3.7,Pytorch版本为1.13.1。

3.2 四个基准数据集的比较结果(RQ1)

sgSDC是一种软聚类、多模态算法,专为单细胞数据的特性设计。在本节中,我们系统地评估其在聚类任务中的性能。具体而言,我们将sgSDC与前面介绍的八种基线方法进行比较,表2展示了四个真实scRNA-seq和scATAC多模态数据集上的结果。这些结果在最佳参数设置下记录。研究结论明确:与基线方法相比,sgSDC始终在ACC、NMI和ARI分数上实现竞争性表现。为更直观地说明这一点,我们用蓝色突出显示最佳结果,并下划线次佳结果。值得注意的是,sgSDC在四个数据集上的三个指标中取得了十个第一名,展示了其在各种场景下稳定且优越的聚类性能。与次佳结果相比,聚类性能的改进显著,在D1上提高了20.44%、13.87%和52.62%;在D2上提高了2.82%和3.38%;在D3和D4上提高了7.95%、11.47%、10.60%、0.73%和36.29%。为更生动地说明实验结果的比较性质,计算了表中结果的平均值,并将可视化结果展示在图3中。

另一方面,实验结果表明,采用统一一步策略的EEOMVC方法表现良好,特别适合单细胞场景,值得进一步探索。尽管大多数算法实现了体面的性能,但AMGL算法表现出极差的聚类性能。这种基于图的模型难以处理生物环境信号的复杂性,使得构建准确的细胞间图谱几乎不可能。因此,AMGL的差聚类性能可能源于不正确的细胞图谱。总之,尽管不存在通用聚类算法,但sgSDC在所有方面与现有算法相比都表现出显著改进。

3.3 对比学习模块的消融研究(RQ2)

SGSDC模型具有创新的结构引导对比学习模块,精心设计以缩小模态特定表示与统一共识表示之间的差异。为确定此创新模块的有效性,我们围绕对比学习组件展开了全面的消融实验。具体而言,我们战略性地消除了定制设计的对比损失,以衡量其对模型整体性能的影响。

结果以图形方式表示在图4中,清楚说明了省略对比学习模块后性能的显著下降。这证实了我们的对比学习组件在有效桥接模态特定表示与共识表示之间的差异方面的关键作用,从而减轻信息冗余和冲突数据对聚类性能的不利影响。总之,本节概述的消融研究有力地强化了所提出对比学习策略的有效性和关键重要性。尽管本调查中用于选择正负样本的方法仍然相对初级,但未来的努力可以专注于设计更

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号