编辑推荐:
为解决单细胞数据分析中数据噪声、批次效应和稀疏性等问题,研究人员开展单细胞基础模型研究,基于 100M 人类细胞训练 800M 参数的 CellFM 模型,其在多任务中表现优异,为单细胞分析提供新工具。
在生命科学领域,单细胞测序技术(scRNA-seq)如同显微镜般,让科学家得以在单个细胞分辨率下窥探转录组的奥秘,揭示细胞异质性。然而,这一技术带来的海量数据却面临着数据噪声、稀疏性和批次效应等棘手问题,传统分析工具在处理新数据集时往往力不从心,难以充分挖掘大规模图谱数据中的丰富信息。如何构建一个统一模型来精准表征细胞状态,成为困扰领域的关键挑战。
为突破这一困境,中山大学生物医学工程学院等国内研究机构的研究人员开展了一项具有里程碑意义的研究。他们基于从多个公共数据库精心整合的 10.23 亿人类细胞转录组数据,成功训练出单细胞基础模型 CellFM。该模型包含 8 亿参数,是当前最大单物种模型参数数量的 8 倍,并在《Nature Communications》上发表了相关研究成果。
研究人员主要采用了以下关键技术方法:首先,从 NCBI GEO、ENA 等公共数据库收集单细胞数据,经质量控制、基因名标准化等处理形成统一格式数据集;其次,基于改进的 RetNet 框架(ERetNet)构建 CellFM 模型,采用 MindSpore 框架在华为 Atlas800 服务器上训练,结合 LoRA 模块减少微调参数数量;最后,通过多种下游任务实验验证模型性能。
研究结果
1. CellFM 模型架构与训练数据概览
研究人员整合了 19,914 个样本的 102,304,686 个人类细胞数据,涵盖正常和疾病状态(如病毒感染、肺癌等),细胞类型包括 T 细胞、单核吞噬细胞等。CellFM 由嵌入模块、ERetNet 模块和 LoRA 模块组成,通过将基因表达数据转化为高维嵌入特征,利用 ERetNet 层捕捉基因间关系,LoRA 模块优化微调效率。
2. 基因功能预测表现卓越
在零样本学习策略下,CellFM 在 Dosage sensitivity(T1)、Bivalent 甲基化状态等二元分类任务中,平均准确率分别比 UCE 和 scGPT 高 5.68%、5.86%。在 Gene Ontology(GO)多分类任务中,其平均 AUPR 优于 GeneCompass 和 UCE,展现出对基因功能的精准预测能力。
3. 扰动响应预测能力突出
结合 GEARS 模型,CellFM 在 Adamson 和 Norman Perturb-seq 数据集上,平均 PCC 和 MSE 均优于其他模型,在虚拟扩展扰动组合预测中,能准确捕捉基因扰动的响应模式。在反向扰动预测中,CellFM 在 top 10 预测中准确率达 81.8%,显著优于 scGPT。
4. 细胞类型 annotation 精度领先
在跨批次的细胞类型注释任务中,CellFM 平均准确率达 92.91%,优于 scFoundation 等模型。在区分 exhausted 和 activated CD8+ T 细胞等亚型时,其表现也显著优于 UCE,证明了对细胞异质性的精细分辨能力。
5. 基因调控网络解析能力强大
通过基因嵌入和注意力图,CellFM 能有效捕捉 IL-2、IL-3 等基因在免疫相关通路中的关系,在 Leiden 聚类基因程序分析中,识别出更多与免疫相关的富集通路,展现出对基因互作网络的深度解析能力。
研究结论与意义
CellFM 作为首个基于 10 亿级人类细胞训练的单细胞基础模型,突破了现有模型在数据规模和参数数量上的限制。其在细胞注释、扰动预测等多任务中的优异表现,为单细胞数据分析提供了高效统一的框架,有望加速药物发现、疾病机制研究等领域的发展。尽管模型仍存在未整合多物种数据等局限,但其为后续单细胞基础模型的研究奠定了坚实基础,开启了单细胞组学与人工智能结合的新范式。