hECA v2.0:面向人工智能的集成单细胞RNA与ATAC测序图谱构建与应用
《Scientific Data》:hECA v2.0: an AI-ready ensemble cell atlas of single-cell RNA and ATAC sequencing data
【字体:
大
中
小
】
时间:2025年12月16日
来源:Scientific Data 6.9
编辑推荐:
本刊推荐:为应对单细胞数据分散与AI模型训练需求,研究团队构建了hECA v2.0集成细胞图谱。该研究整合10,831,024个scRNA-seq细胞与1,450,511个scATAC-seq细胞,通过统一层次注释框架(uHAF)实现跨数据集细胞类型标准化,显著提升数据一致性。图谱已成功应用于生成式预训练模型scMulan的开发,为AI驱动的单细胞研究提供高质量数据基础。
随着单细胞测序技术的飞速发展,科学家们已经能够以前所未有的分辨率观察生命的基本单元——细胞。自2009年首个单细胞RNA测序(scRNA-seq)技术问世以来,全球实验室产生了海量的单细胞数据。与此同时,针对表观遗传调控等其他模态的单细胞测序技术也快速发展,为理解生物过程提供了新视角。
然而,这种数据爆炸式增长也带来了新的挑战。来自不同实验室、使用不同平台生成的数据如同散落的拼图碎片,缺乏统一的标准和整合。虽然人类细胞图谱(HCA)和人类生物分子图谱计划(HuBMAP)等大型倡议旨在构建全面的人类细胞图谱,但如何将这些分散的数据整合成高质量、易于使用的资源,特别是为人工智能(AI)模型训练做好准备,成为当前领域的迫切需求。
正是在这样的背景下,清华大学张雪贡团队在《Scientific Data》上发表了hECA v2.0研究成果。为了解决单细胞数据分散、标注不一致、难以直接用于AI模型训练的问题,研究团队在hECA v1.0基础上进行了大规模扩展和升级,构建了一个真正“AI就绪”的集成细胞图谱。
研究团队采用了多项关键技术方法确保数据质量。他们从90项scRNA-seq研究和10项scATAC-seq研究中收集数据,覆盖42个人体器官和组织。通过自主研发的GeneSymbolUniform工具统一基因符号,将特征空间标准化为42,117个基因。利用统一层次注释框架(uHAF)对细胞类型进行手动重新注释,确保跨数据集标注一致性。对于scATAC-seq数据,通过共识峰值(cPeaks)参考集标准化染色质可及性特征空间。所有数据均经过严格质量控制,并提供了包含15个关键属性的标准化细胞元数据。
研究人员系统收集了90项研究的scRNA-seq数据,包含142个数据集,总计10,831,024个细胞。通过更新版的GeneSymbolUniform工具(Python版本)将基因符号统一到HGNC标准,处理效率显著提升。采用经典的对数归一化方法处理基因表达矩阵,并手动整理了15项细胞元数据,确保数据标准化。
hECA v2.0新增了scATAC-seq模态,整合10项研究的1,450,511个细胞。通过两种工作流程(基于峰值文件和片段文件)进行细胞类型重新注释,利用EpiScanpy包进行质量控制和特征选择,构建基因活性矩阵(GAM)识别标记基因。通过映射到共识峰值(cPeaks)参考集,建立了统一的细胞-by-cPeak矩阵,包含1,657,194个基因组区域。
质量评估显示,scRNA-seq数据中83.8%的细胞总计数超过1,000,92.6%的细胞线粒体基因百分比低于10%。scATAC-seq数据中97%的细胞包含超过1,000个峰值。数据稀疏性分析表明,平均每个细胞表达约1,600个基因(占42,117个基因的3.8%),符合单细胞组学数据的固有特性。
通过scVI和PeakVI算法分别整合scRNA-seq和scATAC-seq数据,UMAP可视化显示相同注释的细胞类型在不同数据集中聚集良好,证明了重新注释策略的有效性和跨数据集一致性。
与DISCO、HuBMAP、TISCH2、HCA数据门户和SCP等代表性单细胞数据库相比,hECA v2.0在数据统一处理、细胞级元数据协调和细胞中心组装方面具有独特优势,同时支持转录组和表观基因组数据。
hECA v2.0研究的重要意义在于它不仅是数据量的简单扩充,更是数据质的飞跃。通过严格的标准化流程和统一注释框架,该图谱解决了单细胞研究中的数据异质性和标注不一致问题,为AI驱动的单细胞研究提供了高质量、结构化的数据基础。研究团队已将该图谱成功应用于生成式预训练模型scMulan的训练,证明了其在实际AI应用中的价值。
该图谱的发布将极大地促进大规模细胞模型和AI虚拟细胞(AIVCs)的发展,推动单细胞组学研究进入AI驱动的新时代。研究人员可以基于这一资源进行跨器官和条件的整合单细胞分析、细胞类型注释参考映射、器官或系统特异性机制研究,以及计算方法的开发和评估。随着更多模态数据的加入和持续更新,hECA有望成为生命科学和医学研究领域不可或缺的基础设施。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号