《Advanced Science》:CellPolaris: Transfer Learning for Gene Regulatory Network Construction to Guide Cell State Transitions
编辑推荐:
本文推荐CellPolaris这一统一计算框架,它通过迁移学习利用预构建的高置信度基因调控网络(GRN),仅需转录组数据即可构建组织或细胞类型特异性GRN,并实现转录因子(TF)中心调控网络构建、主导TF鉴定及TF扰动模拟,为解析发育过程及细胞命运转换的调控机制提供了强大工具。
1 引言
生命发育过程由基因调控网络(GRN)精心编排,其整合环境和细胞信号以指导生物过程。转录因子(TF)是这些GRN的核心节点,它们以时空特异性方式结合靶基因(TG)的顺式调控元件,精确调控细胞命运决定,包括细胞分化和重编程。其中,某些在建立和维持细胞状态中起决定性作用的TF被称为主导TF。这些主导TF及其相应GRN的调控机制在正常发育和疾病发病机制中均高度复杂且动态变化。因此,破译以TF为中心的GRN、识别主导细胞特性的TF以及预测TF扰动对细胞状态的影响是生命科学研究中关键且具有挑战性的目标。
在GRN构建方面,染色质免疫沉淀测序(ChIP-Seq)是分析特定TF-TG调控关系的可靠方法,但该方法无法重建全面的GRN,且实验过程费时费力。为克服这些限制,已开发出从组学数据推断GRN的计算方法,如GRNBoost2、SCENIC、ICAnet、DeepGRNCS、GNNLink和SimiC等。共表达分析方法通过捕捉转录组数据中的协变来推断TF-TG调控关系。此外,整合表观基因组数据(如ATAC-Seq)通过提供TF结合位点的信息增强了GRN推断,例如PECA2、scREG、SCENIC+和DeepTFni等工具。在主导TF识别方面,常见策略是比较离散细胞状态(如初始状态和目标状态)之间的GRN以 pinpoint 关键调控因子,如Mogrify、CellNet和ANANSE所实现的。另一种方法如CEFCON,则利用细胞命运转换的连续动态来识别关键TF。在TF扰动模拟方面,CellOracle整合了ATAC-Seq衍生的GRN与单细胞转录组数据,以模拟TF扰动对TG表达和细胞命运的影响。尽管取得了这些进展,但目前仍缺乏一个统一的框架,能够使用户仅需最少的输入(如仅转录组数据)即可高效执行构建细胞状态特异性GRN、识别主导TF和预测扰动效应等任务。开发这样一个集成框架将极大促进该领域的研究。
本研究提出了CellPolaris,一个用于阐明TF在发育过程中作用的统一框架,包括以TF为中心的GRN构建、主导TF识别和TF扰动模拟。CellPolaris的一个关键改进是开发了一个迁移学习模型,通过从大规模GRN中学习知识,并将其转移到仅需RNA-Seq数据的目标情境中,从而推断上下文特异性GRN。该模型使用通过PECA2从转录组数据和配对ATAC-Seq数据生成的不同情境下的高置信度GRN进行训练。我们利用关键域训练(CDT)方法来减轻不同来源间TF对TG调控的偏移,从而增强从已知GRN到新情境的知识迁移。基准测试证实了CellPolaris在GRN构建中的可靠性。此外,整合跨物种GRN(如小鼠)可稳定提高对人类细胞GRN的预测能力。
基于组织或细胞类型特异性GRN,我们设计了两项下游任务:预测主导细胞命运转换的TF以及模拟TF扰动在发育过程中的影响。在不同的重编程情境中,CellPolaris预测的排名靠前的TF与成功实现重编程的因子组合高度重叠。对于扰动模拟任务,与先前使用预定义GRN的软件不同,我们生成细胞类型特异性GRN,并使用概率图模型(PGM)进行计算机模拟TF敲除,以预测TG表达的变化。我们通过实际的Rfx2敲除实验验证了该模型,并证明CellPolaris在与功能相似的最新工具比较中展现出部分优势。
2 结果
2.1 CellPolaris的设计与组织
为开发一个用于构建以TF为核心的GRN、识别控制细胞命运转换的主导TF以及模拟TF扰动对细胞状态影响的统一框架,我们提出了CellPolaris模型。该模型包含两个核心模块:一个生成组织或细胞类型特异性GRN的迁移学习模型模块,以及一个GRN依赖的下游任务模块,用于预测对细胞特性至关重要的主导TF和模拟发育过程中的TF扰动。
GRN构建面临两大挑战:获取转录组学之外的多模态数据成本高昂,以及难以利用来自不同组织或时期的现有知识来构建新情境下的GRN。为解决这些问题,我们利用配对的RNA-Seq和ATAC-Seq数据构建了一个以TF为中心的高置信度GRN数据库。然后,我们通过整合来自不同细胞状态的先验GRN知识,构建了一个迁移学习模型,该模型允许仅使用批量或单细胞RNA-Seq表达矩阵作为输入,即可推断跨不同组织和状态的GRN。接下来,我们利用这些推断出的GRN执行两项不同的下游任务:1)通过提取细胞状态间的差异GRN来预测参与细胞命运转换的主导TF。2)通过构建带有调控权重的PGM来模拟基于GRN的计算机TF扰动。
2.2 通过迁移学习构建GRN
CellPolaris能够泛化不同组织和细胞状态的GRN。作为模型训练的基础,首先使用PECA2利用配对的RNA-Seq和ATAC-Seq数据生成高置信度GRN。基于此多模态数据集,我们为来自不同组织和发育时期的88个小鼠和68个人类批量数据源构建了GRN,以及为40个小鼠和14个人类单细胞来源构建了细胞类型特异性GRN。数据库中的每个源被视为一个域。
利用这些预先存在的GRN,我们构建了一个GRN生成器,用于推断所有TF-TG对的基因调控分数。不同域之间的基因表达水平和TF-TG调控关系存在差异;这将导致域对之间的特征分布存在差距。接下来,我们引入了一个迁移学习模型,该模型使用关键域训练(CDT)策略,可以将GRN生成器泛化到新的、未见过的转录组数据。该策略的核心思想是动态地桥接最不相似域之间的表达关系。这些域对之间较大的分布差距使得获取跨不同域的不变知识具有挑战性。因此,我们动态地强调对这些关键域的优化。通过最小化分布差距,我们的目标是减少整体域差异,从而提高模型在不同数据分布上的泛化能力。我们计算了特征空间中任意两个域之间的距离,并选择距离最远的前百分之σ的域作为关键域。这些域存在较大的域偏移,阻碍了对泛化至关重要的域不变知识的学习。在识别关键域后,我们使用Mixup策略进行数据增强,以减少关键域之间的距离。对来自两个不同域的样本对进行线性插值,从而生成整合了两个域知识的新样本,并减少了分布差距。经过多轮动态选择关键域、数据增强和泛化后,模型最终收敛。
2.3 GRN迁移模型的性能
为了评估我们泛化模型的性能,我们使用数据库中的GRN对其进行训练,并将其与三种流行的域泛化方法进行比较:域对抗神经网络(DANN)、Mixup和Ours-MMD(使用CDT的最大均值差异)。DANN引入对抗性训练目标以学习跨域的不变知识。随机Mixup涉及在随机域样本之间进行线性插值。Ours-MMD采用广泛使用的最大均值差异(MMD)而不是在关键域之间进行混合。我们采用R2分数来评估模型预测的TF-TG调控强度值与PECA2产生的值之间的相关性。这有助于确定回归拟合的有效性。我们的模型在比较迁移后的GRN与数据库中可用的高置信度GRN时,实现了约95%的网络相关性(R2)。该比较是在使用人和小鼠单细胞数据的不同细胞类型上进行的。跨各种性能指标(包括均方根误差(RMSE)、平均绝对百分比误差(MAPE)和受试者工作特征曲线下面积(AUROC))的评估表明,我们的模型性能略优于或与其他三种模型相当。我们还比较了模型预测的与PECA2生成的特定单细胞群体中相同数量的排名靠前的调控关系。比较显示,两种方法之间大约67-77%的调控关系是一致的。总体而言,这些结果证明了我们仅使用转录组数据构建组织或细胞类型特异性GRN方法的有效性和泛化能力。
随后,我们评估了使用小鼠批量RNA-Seq数据跨不同组织和时期预测GRN的准确性。我们将每个组织视为一个域,并采用留一法设置。将一个组织留出作为目标测试域,而其余非相似组织用作训练源域。该模型在预测跨不同组织的GRN时,总体性能超过90%(AUROC),在预测跨不同时期的GRN时超过95%。
原则上,我们的迁移模型支持跨物种迁移。为了解决跨物种GRN迁移问题,我们基于Mixup策略引入了一种外推Mixup(extra_mixup)方法。结果表明,整合小鼠心脏来源的GRN显著提高了CellPolaris构建的人类心脏GRN中心脏特异性TF-TG调控关系的排名,从而识别出更多由心脏表达TF特异性调控的靶基因。此外,我们发现增加来自外部物种的器官数量进一步增强了CellPolaris的整体性能,而不会显著增加假阳性TF-TG关系的比例。总之,我们的结果表明CellPolaris在使用转录组数据预测组织或细胞类型特异性GRN方面是可靠的。
最后,我们通过将模型生成的GRN与现有GRN推断方法(包括CellOracle、GENIE3、GRNBoost2、SCENIC、DeepGRNCS、SimiC和ICAnet)生成的GRN进行比较,评估了我们模型的性能。我们使用RegNetwork、TRUUST和ChIP-Atlas数据库作为TF-TG调控对的黄金标准。最初,我们使用ChIP-Atlas数据库分析了4种细胞类型中6个TF的靶基因,观察到CellPolaris的平均AUROC为0.78,而其他方法的平均AUROC范围为0.54至0.59。此外,我们评估了总共5种细胞类型中的16个TF,使用TRUUST和RegNetwork数据库对这些方法进行基准测试。Recall分数也表明CellPolaris优于其他方法。
2.4 细胞命运转换过程中潜在主导TF的预测
主导TF在细胞命运转换中的作用已得到充分证实。为了在重编程情境中搜索潜在的主导TF,我们分析了源细胞和目标细胞类型之间GRN的变化,而不仅仅是考虑TF的差异表达。我们为重编程过程中的源细胞和目标细胞构建了组织或细胞类型特异性GRN。通过过滤掉源GRN和我们的GRN数据库,识别出目标细胞类型特异性差异GRN。接下来,我们根据以下四个指标对差异GRN中的TF进行排名:它们在源细胞和目标细胞中的表达倍数变化、下游靶基因的数量、靶基因的加权平均倍数变化(以差异网络中的TRS分数加权)以及TF的特征向量中心性,后者代表了其靶基因在GRN结构中的重要性,可以看作是信息在整个图中传递达到稳态时节点的得分。我们使用三个先前报道的重编程和转分化系统验证了我们的预测。我们的结果表明,重编程因子的多数组合都包含在排名靠前的TF列表中。在每个细胞命运转换系统中,排名前10的TF大多数已被报道能够增强重编程效率或可以用于不同组合的重编程。尚未报道的TF通常位于与主导TF相同的基因家族中,提示功能补偿。最后,几个排名靠前的TF可能调控了源细胞和目标细胞之间超过10%的差异表达基因,表明它们在重编程过程中的重要性。
总体而言,我们证明了我们的策略在某些重编程系统中搜索主导TF的适用性,它可以提供一个候选主导TF列表,以增强细胞命运重编程。
2.5 圆形精子细胞分化过程中TF扰动的模拟
除了预测主导TF,GRN还可用于预测发育过程中TF扰动的效应。可以利用单细胞的向量场来模拟分化过程中TF扰动的效应。因此,我们构建了一个概率图模型(PGM)来模拟单细胞水平的TF扰动。首先,对scRNA-Seq数据进行聚类分析,并将每个聚类中的细胞转换为伪批量数据,用于迁移聚类特异性GRN。将得到的GRN与scRNA-Seq数据整合,通过考虑整个网络结构学习基因间的条件分布参数,构建一个PGM。基于该模型,我们通过将TF的表达设为零来预测下游TG的变化。最后,我们采用与CellOracle类似的策略来估计TF扰动对细胞发育过程的影响。
通过重新分析圆形精子细胞分化的scRNA-Seq数据,我们构建了一个分化轨迹。我们测量了两个已报道调控圆形精子细胞分化的转录因子Crem和Hoxa4的效应。与报道结果一致,敲除这两个TF均逆转了圆形精子细胞的分化轨迹并抑制了其分化。我们的预测结果与CellOracle线性回归模型的结果一致。随后,我们识别了参与圆形精子细胞分化的TF,其中大多数在三个阶段都很重要。值得注意的是,这些基因中许多的缺失会导致动物模型中的早期发育停滞。因此,我们的模型有助于指导研究基因在晚期发育过程中的功能。
总之,为了模拟TF扰动,我们通过整合迁移的GRN和单细胞RNA-Seq数据建立了一个PGM。通过模拟圆形精子细胞分化中的TF扰动评估了该模型的性能。预测结果与基因敲除动物模型的结果一致。
2.6 模拟和验证Rfx2敲除对圆形精子细胞发育的影响
接下来,我们使用CellPolaris模拟了Rfx2的敲除,该基因已知对圆形精子细胞发育至关重要。预测结果显示,Rfx2敲除导致圆形精子细胞发育的早期阻断,这与CellOracle的预测一致。为了全面展示我们的预测与CellOracle预测的比较,我们构建了在圆形精子细胞发育阶段Rfx2缺陷的小鼠模型。与先前报道一致,敲除Rfx2导致小鼠精子发生异常。为了评估精子细胞的发育停滞时期,我们使用了花生凝集素(PNA)标记技术,该技术可以区分精子发育的不同阶段。PNA染色的弧长随着圆形精子细胞的进展而逐渐增加,为其发育进程提供了度量。值得注意的是,结果显示Rfx2敲除导致PNA分布呈点状模式,支持了Rfx2敲除导致圆形精子细胞发育早期阻断的预测。
在更详细的分析中,我们检查了CellPolaris预测的Rfx2在圆形精子细胞发育过程中的下游TG,并通过Rfx2敲除转录组数据识别出4个负向和26个正向TG。与这些预测一致,在正向调控的TG中,有7个在Rfx2敲除转录组数据中下调,变化倍数大于2。此外,在四个负向调控基因中,有三个在Rfx2敲除转录组中上调。同时,65%(17/26)的正向调控基因在敲除样本中显示出下降趋势。相比之下,当检查CellOracle预测的正向和负向调控TG时,预测的准确性低于CellPolaris。特别是在Rfx2敲除样本中表达上调超过两倍的基因中,CellOracle预测有6个基因被下调。在Rfx2敲除样本中表达下调超过两倍的基因中,CellOracle预测有6个基因被Rfx2正向调控。
3 讨论
破译TF在发育过程中的作用是一项极具挑战性的任务。在本研究中,我们提出了CellPolaris,一个统一的框架,旨在执行以TF为中心的GRN构建、主导TF识别和发育过程中的TF扰动模拟。对于GRN构建,一个迁移学习模型通过利用训练过程中现有的高置信度GRN,从RNA-Seq数据生成组织或细胞类型特异性GRN。与现有的仅使用转录组的软件(如GENIE3和GRNBoost2)相比,CellPolaris展示了一定程度的性能提升。此外,与其他工具(如PECA2、SCENIC+和DeepTFni)相比,CellPolaris在模型训练完成后,进行GRN推断时不依赖于转录组数据之外的额外信息。
一些基于单细胞数据的基础模型已经被开发出来,包括GeneCompass、scGPT、Geneformer和scFoundation。CellPolaris生成的GRN可以作为这些大模型预训练过程的先验生物学知识,例如通过施加软约束。同时,我们框架的一个优势是其可扩展性,允许扩展高置信度GRN训练集以增强CellPolaris的性能。
对于基于概率图模型的扰动预测任务,我们的方法与CellOracle相比,在整个网络上学习参数,而不仅仅是部分网络。该方法充分利用了网络的完整性,并使用了单细胞水平的基因表达。最近的研究,如使用Spectra和expiMap的研究,已经证明了在基因程序水平进行扰动预测的可行性。将这些方法与我们的模型整合可能会提高TG表达变化预测的准确性。
CellPolaris的未来增强也是必要的。虽然迁移学习方法对于GRN构建是有效的,但通过将其适用性扩展到人类和小鼠之外,特别是到亲缘关系较远的物种(其中跨物种GRN迁移仍然具有挑战性),可以加强其能力。除了RNA-Seq,其他模态如ATAC-Seq正变得越来越容易获取。因此,在未来支持GRN迁移学习的灵活输入模态将是至关重要的。目前,预测主导TF的模块仅对与细胞命运转换相关的因子进行排名。未来的更新可能会给出能更有效影响这些转换的TF组合。此外,扰动模拟模块受到PGM节点大小限制的约束,随着GRN复杂性的增加会降低计算效率。在后续开发中实施并行计算策略可能提供一种可行的解决方案来提高性能。
总之,我们开发了CellPolaris,一个旨在利用转录组数据阐明TF在发育过程中作用的框架。该框架为理解细胞命运调控和发育的潜在机制提供了宝贵的见解,为GRN分析及相关领域的未来进展铺平了道路。