
-
生物通官微
陪你抓住生命科技
跳动的脉搏
CellWalker2:基于层次化细胞类型关系的多组学发现新工具
【字体: 大 中 小 】 时间:2025年05月23日 来源:Cell Genomics 11.1
编辑推荐:
这篇研究报道了CellWalker2这一基于图扩散模型的创新工具,通过整合多模态单细胞数据(scRNA-seq/scATAC-seq)和层次化细胞类型关系,实现了跨物种、跨情境的细胞类型精准注释与调控元件映射。其核心突破在于:1)建立统计显著性评估体系(Z scores);2)支持多组学数据联合建模;3)首次实现细胞类型层次树的概率化比对。在PBMC、大脑发育等场景中,该工具在TF特异性鉴定、保守性分析等方向展现出超越Seurat、MARS等现有方法的性能。
CellWalker2的多组学整合框架
作为CellWalker的升级版,CellWalker2通过构建包含细胞、标签和基因组注释的异质图模型,采用重启随机游走算法计算节点影响力矩阵。其创新性体现在三方面:1)将细胞类型层次关系编码为图结构;2)通过度保持置换生成零分布计算Z值;3)支持RNA-seq和ATAC-seq数据的灵活组合。在10x Genomics PBMC多组学数据测试中,该模型跨模态连接准确率显著优于GLUE和SIMBA。
细胞注释的性能突破
通过模拟数据集验证,在存在批次效应和基因丢失(dropout)的中等难度场景下,CellWalker2的细胞类型标注准确率比Seurat提高15-20%。特别值得注意的是,当参考数据集中稀有细胞占比从32%降至3%时,Seurat会将细胞错误标注为高丰度类型,而CellWalker2仍保持>90%的准确率。这种稳定性源于其基于置换检验的Z值计算体系,能有效消除节点度数的干扰。
跨物种细胞类型比对
在哺乳动物运动皮层研究中,工具成功解析了人类与狨猴抑制性神经元的进化关系。例如人类Inh PVALB COL15A1(吊灯细胞)与狨猴Inh PVALB FAM194A显示出强相关性(Z>75),而表达双标记物PVALB/SST的狨猴细胞则同时映射到人类Pvalb和Sst亚类。这种多层次映射能力超越了Bakken等人构建的共识分类法,为跨物种细胞进化研究提供了新维度。
调控元件的细胞特异性解析
通过分析人脑发育期的19,151个预测调控元件(pREs),发现基底节特异性pREs在放射状胶质细胞(RG)中的富集Z值达8.3(p<10-15),而皮质板特异性pREs优先映射到兴奋性神经元。与常规DARs分析相比,该方法无需预先聚类即可直接关联基因组区域与细胞类型,在CTCF等广谱TF的细胞特异性结合位点鉴定中展现出独特优势。
转录因子调控网络的构建
在PBMC体系中,CellWalker2不仅重现了已知的谱系决定因子(如B细胞的EBF1、CD8+ T细胞的TBX21),还发现THAP11等TF在多个T/NK细胞亚群中活跃。通过整合ReMap2022的ChIP-seq数据,证实约68%的预测TF-细胞类型关联有实验证据支持,显著高于ArchR(52%)和Signac(45%)的检出率。这种分层映射策略为解析复杂组织的基因调控网络提供了新范式。
技术局限与发展方向
当前版本在百万级细胞规模的计算效率有待提升,且依赖多组学数据作为桥梁。未来计划通过近似算法加速置换检验,并引入单细胞TF结合谱(scATAC-seq+motif)来区分共定位的调控因子。这些改进将增强其在肿瘤异质性和发育轨迹重构等场景的应用潜力。