Nicheformer:一种用于单细胞和空间组学的基础模型
《Nature Methods》:Nicheformer: a foundation model for single-cell and spatial omics
【字体:
大
中
小
】
时间:2025年10月31日
来源:Nature Methods 32.1
编辑推荐:
Nicheformer是一种基于Transformer的多模态模型,通过预训练在整合了单细胞和空间转录组学数据的大规模集合SpatialCorpus-110M(1.1亿细胞)上,有效捕捉细胞空间微环境。在脑、肝、肺等器官的下游任务中,如空间标签预测、邻域组成和密度预测,Nicheformer显著优于现有模型(Geneformer、scGPT、CellPLM),并能将空间信息迁移到分离的单细胞数据,为单细胞分析提供新框架。
Nicheformer代表了一种全新的方法,用于在单细胞基因组学和空间转录组学之间建立联系。这项研究展示了如何利用大规模、多模态的单细胞和空间数据来训练一种基础模型,从而能够预测与空间相关的任务。传统的单细胞RNA测序(scRNA-seq)技术虽然在解析细胞异质性方面取得了显著进展,但其需要将细胞解离,这会丢失细胞微环境的信息,限制了对分子变异的全面理解。而近年来,基于图像的空间转录组学技术的进步,使得可以在原位对细胞进行高通量测序,从而揭示了细胞间的通讯、空间梯度以及组织微环境的复杂特性。Nicheformer的提出正是为了应对这一挑战,它不仅能够处理这些空间数据,还能将学到的细胞信息迁移到非空间的scRNA-seq数据中,为研究细胞在组织中的位置和功能提供了新的视角。
Nicheformer是一种基于Transformer架构的基础模型,它利用了名为SpatialCorpus-110M的大型数据集进行预训练。这个数据集涵盖了超过1100万个来自人类和小鼠的细胞,其中包括5700万个解离的细胞和5380万个空间解析的细胞,覆盖了73种不同的组织和器官。通过引入模态、物种和实验技术相关的上下文标记,Nicheformer能够学习到单细胞和空间基因组学的联合表示。这种设计使得模型不仅能够捕捉基因表达的全局模式,还能识别出与空间环境相关的细微变化。研究团队通过一系列下游任务的测试,证明了Nicheformer在空间标签预测、空间组成预测以及空间密度预测等方面的表现优于现有基础模型,如Geneformer、scGPT、UCE和CellPLM。
在方法学上,Nicheformer的预训练过程采用了一种创新的基因排名编码策略。对于每个细胞,基因表达数据被排序,以表达水平的相对值为基础,生成一个有序的基因序列。这种编码方式有助于模型在处理不同实验技术的数据时保持一致性,同时减少批次效应带来的干扰。为了进一步增强模型的表达能力,研究团队还引入了物种、实验技术和数据模态的上下文标记,使模型能够区分不同来源的数据特征。此外,为了验证模型的稳定性,研究团队对不同的扰动情况进行了测试,包括随机打乱基因排序和随机删除部分基因,结果表明Nicheformer在这些情况下仍然能够保持较高的预测精度。
在实际应用中,Nicheformer展示了其在跨模态数据迁移中的强大能力。例如,在空间转录组学数据中定义的细胞类型、微环境和区域标签,可以被迁移到非空间的scRNA-seq数据中,从而为理解细胞在组织中的功能提供额外的上下文信息。这一特性对于研究如肿瘤微环境、免疫细胞分布等具有重要意义。在脑组织的研究中,Nicheformer能够准确预测不同性别细胞之间的基因表达差异,揭示了其在捕捉生物学信号方面的有效性。此外,在肝脏和肺部的多个数据集中,Nicheformer在预测细胞组成和密度方面表现优异,表明其在处理复杂组织结构中的潜力。
研究还发现,Nicheformer在不同组织和数据模态之间的表现存在差异。例如,在肝脏数据集中,由于数据集的多样性不足,模型的预测能力受到一定影响。然而,当模型在更多数据上进行预训练后,其性能显著提升。这表明,为了获得更全面的模型表现,需要在预训练阶段使用多样化的数据集。此外,Nicheformer在处理细胞组成预测任务时,能够区分出不同细胞类型的细微差异,这为理解细胞间的相互作用提供了新的工具。
在讨论部分,研究者强调了Nicheformer在单细胞生物学中的潜在价值。它不仅能够帮助研究人员更准确地预测细胞在空间中的分布和功能,还能为未来的多模态模型提供基础。虽然目前的Nicheformer模型在某些情况下仍然存在局限,例如未能完全利用空间坐标信息,但这些限制为未来的研究提供了方向。研究者认为,随着新的实验技术和多模态数据的不断涌现,Nicheformer的改进版本有望更好地整合这些信息,从而更全面地揭示细胞在组织中的状态。
总的来说,Nicheformer的出现标志着单细胞基因组学分析的一个重要进展。它不仅能够处理大规模、多模态的数据,还能将空间信息有效地迁移到非空间数据中,为理解细胞在组织中的行为提供了新的方法。随着研究的深入,Nicheformer有望成为未来空间单细胞分析的核心工具,帮助科学家更全面地探索细胞异质性及其在不同组织环境中的作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号