PBMCpedia:首个跨疾病、多模态PBMC单细胞转录组图谱数据库——标准化整合与深度免疫解析

《Nucleic Acids Research》:PBMCpedia: a harmonized PBMC scRNA-seq database with unified mapping and enhanced celltype annotation

【字体: 时间:2025年11月25日 来源:Nucleic Acids Research 13.1

编辑推荐:

  单细胞转录组学数据整合难题限制了PBMC研究的可重复性与跨队列比较。为解决此问题,研究人员开发了PBMCpedia,通过统一流程重处理24项研究、519个样本(430万细胞),涵盖14类疾病与健康对照,提供分层细胞注释、多模态数据(TCR/BCR、CITE-seq)及交互式平台,支持跨疾病、性别、年龄的免疫特征挖掘,为免疫学研究提供标准化资源。

  
免疫系统在健康与疾病状态下的动态变化一直是生物医学研究的核心课题。外周血单个核细胞(PBMC)作为易获取的免疫细胞来源,通过单细胞RNA测序(scRNA-seq)技术能够揭示免疫细胞的异质性及其在感染、自身免疫、衰老等过程中的作用。然而,随着公共数据库中PBMC数据集数量的快速增长,研究者面临一个严峻挑战:不同研究采用的数据预处理流程、细胞注释标准和批次校正方法各异,导致数据整合困难,跨研究比较的可重复性受到限制。例如,已有的大型PBMC图谱如艾伦免疫健康图谱(Allen Immune Health Atlas)虽提供健康人群的免疫细胞参考,但缺乏疾病队列;而“炎症景观”(Inflammation Landscape)等资源虽覆盖疾病样本,却未提供交互式分析平台或完整数据下载。这种碎片化现状阻碍了系统性免疫特征挖掘和生物标志物发现。
为解决上述问题,由德国萨尔大学临床生物信息学团队主导的研究在《Nucleic Acids Research》上发布了PBMCpedia——一个经过标准化整合的多疾病PBMC单细胞转录组数据库。该研究通过统一重处理24项公共研究的原始FASTQ文件,整合了519个样本、超过430万个高质量细胞,覆盖14类疾病(包括COVID-19、自身免疫疾病、神经退行性疾病等)和健康对照,并纳入T细胞受体(TCR)/B细胞受体(BCR)序列和表面蛋白测量(CITE-seq)等多模态数据。PBMCpedia的核心创新在于通过标准化质量控制、Harmony批次校正和分层细胞注释(基于艾伦免疫图谱框架),消除了技术偏差,同时提供交互式网站与API接口,支持用户进行基因表达查询、差异分析和通路富集。
关键技术方法
研究从NCBI SRA下载原始FASTQ文件,使用Cell Ranger(v9.0.0)比对至GRCh38参考基因组,并通过Scanpy(v1.11.1)进行质控(剔除基因数<200或UMI计数过高的细胞)。采用CellBender去除环境RNA背景,Scrublet识别双细胞。整合时使用Harmony(基于15个主成分)校正样本和项目级别的批次效应。细胞类型通过Allen Institute的cell_type_mapper工具注释为AIFI_L1(主要谱系)和AIFI_L2(亚型)两级层次。差异表达分析采用limma(v3.58.1)和Wilcoxon检验,通路富集使用GSEApy(GO_Biological_Process_2021库)。TCR/BCR数据通过Cell Ranger vdj流程和scirpy(v0.22.1)解析。
研究结果
1. 数据规模与覆盖范围
PBMCpedia整合的429万个细胞涵盖感染性疾病(如COVID-19、结核)、自身免疫病(如系统性红斑狼疮)、神经退行性疾病(如阿尔茨海默病)及健康人群,样本均附带年龄、性别和疾病状态元数据(图1A)。性别分布均衡(图1B),且与现有图谱重叠度低,凸显其独特性(图1C)。通过严格质控剔除约50%的初始细胞(图1D),确保数据可靠性。
2. 跨疾病免疫特征比较
凭借统一预处理,PBMCpedia支持直接比较不同疾病(如流感与COVID-19)、年龄组(年轻<25岁、成人25-64岁、老年>64岁)和性别的免疫反应。例如,通过可视化CD4与CD8A基因表达(图2A、2B),可快速识别T细胞亚群在不同条件下的差异。网站还支持分层分析(如仅限老年女性样本),避免人口学混淆因素。
3. 多模态数据整合
75个样本包含配对的TCR/BCR序列,56个样本具备CITE-seq表面蛋白数据,用户可联合分析转录组与免疫受体克隆性或多组学特征。例如,在COVID-19研究中,可同步追踪病毒特异性T细胞克隆扩增与表面蛋白表达变化。
结论与意义
PBMCpedia通过标准化流程解决了PBMC数据整合的可重复性难题,其多层次注释体系兼顾初学者与专家需求。数据库的跨疾病设计助力识别共性免疫失调机制(如衰老相关炎症特征),而多模态数据为精准免疫研究提供新维度。尽管部分疾病(如罕见病)样本仍不足,但可持续扩展的框架允许未来纳入新数据集(如艾伦免疫图谱原始数据)。此外,研究通过多层感知机验证了数据一致性,为机器学习应用奠定基础。PBMCpedia作为开放资源,有望推动免疫学发现向临床诊断工具转化,尤其在个体化免疫监测和跨人群比较中发挥关键作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号