Expression Atlas 2026:通过社区协作与整合实现FAIR和开放表达数据

《Nucleic Acids Research》:Expression Atlas in 2026: enabling FAIR and open expression data through community collaboration and integration

【字体: 时间:2025年12月11日 来源:Nucleic Acids Research 13.1

编辑推荐:

  本期推荐:为解决基因和蛋白表达数据分散、难以整合利用的问题,研究人员开展了Expression Atlas知识库的更新主题研究,通过标准化流程重新分析4500余项研究、整合单细胞RNA-seq及蛋白质组学数据,并引入外部社区数据集如Tabula Sapiens和GTEx单核图谱,构建了跨67个物种的统一表达资源。该成果实现了数据在组织、细胞类型和条件层面的可查找、可访问、可互操作和可重用(FAIR),为基础研究和转化医学提供了关键数据支撑。

  
随着基因组学技术的飞速发展,科学家们产生了海量的基因表达数据,但这些数据往往分散在不同的数据库和研究中,缺乏统一的标准化处理和分析方法。研究人员在探索基因功能、疾病机制或药物靶点时,常常面临数据难以比较、整合和重用的困境。特别是在单细胞技术和蛋白质组学快速兴起的背景下,如何将多组学数据、跨物种信息以及临床样本的表达谱有效整合,成为一个亟待解决的关键问题。欧洲分子生物学实验室欧洲生物信息学研究所(EMBL-EBI)自2009年建立的Expression Atlas知识库,正是为了应对这一挑战而生,旨在为科研社区提供一个高质量、经过统一重新分析的基因和蛋白表达数据平台。
在最新发表于《Nucleic Acids Research》的更新报告中,研究团队展示了Expression Atlas在2026年的重大进展。该资源现已涵盖67个物种的4500多项研究,包括1512个RNA-seq实验、123个蛋白质组学数据集以及383个单细胞RNA-seq研究,总细胞数超过1000万个。值得注意的是,此次更新首次引入了原生生物盘基网柄菌(Dictyostelium discoideum)的数据,拓展了进化多样性覆盖;同时整合了基因型-组织表达(GTEx)项目V8版本的人类组织转录组数据,以及Tabula Sapiens、人类肺细胞图谱等外部社区数据集。通过标准化分析流程、增强标记基因识别模块、优化单细胞数据分析工作流,并强化与UniProt、Europe PMC、Open Targets等平台的互操作性,Expression Atlas显著提升了数据的FAIR化程度,为基础生物学研究、疾病机制解析和药物靶点发现提供了强有力的数据支撑。
在方法学上,研究人员主要依托几个关键技术实现数据整合与分析。首先,针对批量表达数据,团队采用标准化生物信息流程对来自ArrayExpress、GEO等数据库的转录组和蛋白质组数据进行重新分析,确保跨数据集的可比性。对于单细胞数据,Expression Atlas构建了基于Nextflow的端到端分析工作流,整合了Alevin/Salmon定量、Scanpy聚类及批次校正等步骤,并支持以AnnData格式导入外部已分析的社区图谱数据(如GTEx单核RNA-seq)。在数据标注方面,新开发的标记基因查找工具(MGFR)通过特异性评分(0-1)识别组织或条件特异性表达基因。此外,团队通过Kubernetes容器化架构提升系统可扩展性,并利用RESTful API和R包(ExpressionAtlas)提供程序化访问接口。所有人类队列数据均遵循伦理规范,GTEx数据来源于dbGaP授权项目(phs000424.v8.p2),临床转录组数据则与DIAMONDS consortium合作收集。

数据增长与内容

Expression Atlas在发布版43(2025年)中已收录4562项研究,覆盖67个物种,包括约2900个微阵列研究、1512个RNA-seq实验和123个蛋白质组学研究,累计 assay 数超过16万。基线表达层涵盖48个物种的375个实验,差异表达层包含67个物种的4187个实验。物种覆盖范围显著扩大,新增的首个原生生物盘基网柄菌数据为研究多细胞进化提供了资源。蛋白质组学数据通过与PRIDE数据库合作,从93项增至123项研究,新增数据包括人类和猪组织的DIA(数据非依赖采集)和DDA(数据依赖采集)基线图谱,并建立了转录组与蛋白质组数据的交叉链接。
GTEx V8数据的整合是本次更新的亮点之一,包含约1.73万个RNA-seq样本,来自54个人体组织部位和948名捐赠者。这些数据为用户提供了近乎全面的人类组织表达参考,支持跨研究比较和下游分析。在Expression Atlas界面中,用户可查询特定基因的表达谱、筛选组织特异性标记基因,并下载标准化计数进行重新分析。

单细胞表达图谱

单细胞表达图谱(SCEA)发布版21(2024年)收录了383个单细胞RNA-seq实验,涵盖21个物种,其中人类(159项)和小鼠(125项)研究占比最高。新增重要数据集包括衰老果蝇细胞图谱(Aging Fly Cell Atlas)和果蝇视觉系统发育细胞图谱(约85万个细胞)。SCEA还引入了交互式人体肠道解剖图,支持从组织视图缩放至细胞类型热力图。
SCEA创新性地引入了外部分析数据导入机制,以预处理的AnnData对象形式整合了GTEx单核RNA-seq图谱、Tabula Sapiens(Smart-seq2数据集)、人类肺细胞图谱和发育中人类免疫系统图谱等社区资源。这种方式既保留了原始联盟的分析框架(如批次校正和细胞类型注释),又避免了重复计算。目前,SCEA中的人类细胞图谱(HCA)集合已包含81项研究,可通过HCA数据门户获取详细信息。

方法论、分析工作流和基础设施改进

为提升基线表达数据的可解释性,Expression Atlas新增了标记基因识别模块。该模块基于MGFR算法计算基因在特定组织或条件组的表达特异性(评分0-1,越低越特异),并筛选特异性评分<0.3且表达量>0.5 TPM的基因作为标记基因。用户可在实验界面选择“标记基因”选项,热力图将展示各条件下top标记基因的表达模式。
单细胞数据分析流程全面转向Nextflow框架,实现了端到端的容器化工作流,提升了可重复性和可扩展性。流程整合了技术特异性定量工具(如液滴文库的Alevin/Salmon)、质量控制、双细胞检测和批次校正步骤,下游分析基于Scanpy,并遵循nf-core社区标准。在2025年nf-core黑客松期间,团队进一步优化了聚类算法(如Leiden算法)和自动化测试模块。
基础设施方面,Expression Atlas正迁移至Kubernetes容器化编排架构,提升了系统的伸缩性、容错性和可维护性,能够应对日益增长的数据量和用户访问需求。

数据传播与社区合作

Expression Atlas通过多种渠道传播数据,增强其可访问性和互操作性。数据定期导出至EMBL-EBI其他资源(如UniProt、Europe PMC)和外部平台,形成交叉引用。例如,Europe PMC出版物记录中嵌入了Expression Atlas数据集链接,用户可从文献直接跳转至表达数据。
团队与多个模型生物社区和临床联盟保持紧密合作。例如,与Gramene合作优先收录植物转录组数据(当前覆盖27个物种的1026项研究);与FlyBase合作整合果蝇单细胞数据;与鼠基因表达数据库(GXD)和大鼠基因组数据库(RGD)共享标准化表达信息。在临床转化方面,欧洲诊断转录组库(EDTL)为感染性和炎症性疾病提供了分子分类参考面板,目前已纳入疟疾、结核病、川崎病等疾病的数据集。
在药物发现领域,Expression Atlas与Open Targets(OT)平台合作,基于超过1.8万个样本的基线表达数据评估靶点组织特异性。OT平台通过加权P值、log2折叠变化和百分位排名计算表达证据分数,辅助靶点-疾病关联评估。

未来方向

Expression Atlas的未来发展将聚焦于社区数据提交机制优化、批量数据分析流程现代化(替代现有iRAP工作流)、跨研究meta分析模块开发,以及增强版Bioconductor R包(支持批量与单细胞数据检索和可视化)。尤为重要的是,团队计划提供AI友好型数据格式,支持机器学习应用和基础模型训练,进一步强化其在计算生物学中的枢纽作用。
综上所述,Expression Atlas通过持续的数据扩容、分析方法革新和社区协作,已成为全球最重要的标准化表达数据库之一。其跨物种、多组学的数据整合能力,以及日益增强的FAIR化特性,不仅推动了基础生物学研究,也为精准医学和药物开发提供了不可或缺的资源基础。随着未来AI友好型数据格式和现代化分析管线的落地,Expression Atlas有望在基因组学与人工智能融合的时代发挥更核心的作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号