-
生物通官微
陪你抓住生命科技
跳动的脉搏
ScInfeR:基于图神经网络的单细胞多组学数据高效细胞类型注释新方法
《Briefings in Bioinformatics》:ScInfeR: an efficient method for annotating cell types and sub-types in single-cell RNA-seq, ATAC-seq, and spatial omics
【字体: 大 中 小 】 时间:2025年06月06日 来源:Briefings in Bioinformatics 6.8
编辑推荐:
单细胞测序技术面临细胞类型注释准确性不足的挑战。印度理工学院Jodhpur分校团队开发了ScInfeR工具,创新性地整合scRNA-seq参考数据和标记基因集,通过图神经网络框架实现scRNA-seq、scATAC-seq和空间转录组数据的精准注释。研究显示其在329种细胞类型注释任务中F1分数达0.94,显著优于现有10种工具,并配套开发了包含2497个标记基因的ScInfeRDB数据库。该成果发表于《Briefings in Bioinformatics》,为单细胞多组学研究提供了标准化解决方案。
在生命科学领域,单细胞测序技术革命性地推动了细胞异质性研究,但细胞类型注释始终是制约数据解读的关键瓶颈。传统方法依赖单一数据源——要么使用标记基因集(marker-based),要么参考已注释的单细胞RNA测序(scRNA-seq)数据集(reference-based),前者易受标记基因特异性限制,后者则面临参考数据集覆盖不全的困境。更棘手的是,单细胞ATAC测序(scATAC-seq)和空间转录组数据的注释工具性能普遍较差,且现有方法大多无法识别细胞亚型。这些局限性严重影响了单细胞多组学数据的生物学解读。
印度理工学院Jodhpur分校的Ashish Kumar Swain、Rajveer Singh Shekhawat和Pankaj Yadav团队开发了ScInfeR工具,创新性地融合了图神经网络和层次化注释策略。该方法通过构建细胞-细胞相似性邻接矩阵(Madj
),整合局部与全局标记基因特异性评分(AUCcombined
),并借鉴图神经网络中的消息传递层(message-passing layer)框架,实现了三大技术突破:首次支持标记基因集与参考数据的混合使用;首创层次化亚型识别能力;兼容scRNA-seq、scATAC-seq和空间组学数据。研究团队从28种组织类型中收集了2497个标记基因,构建了标准化数据库ScInfeRDB,并通过Tabula Sapiens等24个数据集进行系统验证。
关键技术包括:1)基于UMAP/PCA构建细胞相似性邻接矩阵;2)结合局部(AUClocal
)与全局(AUCglobal
)特异性评分筛选标记基因;3)采用消息传递层框架计算加权平均表达谱(Msc
combined
);4)对空间数据整合空间坐标信息;5)使用微F1分数和调整兰德指数(ARI)进行性能评估。
系统性能验证结果
在Tabula Sapiens肺组织数据中,ScInfeR的F1分数达0.94,较第二名ScType提高1%。其亚型识别能力尤为突出:对CD4+
T细胞等5种亚型的识别准确率(F1=0.74)远超Garnett工具(F1=0.24)。处理16万细胞的运行时间<60秒,展现卓越的计算效率。
跨技术平台适用性
对于scATAC-seq数据,ScInfeR通过整合染色质可及性评分与基因活性评分,在PBMC数据集(GSE129785)获得0.97的F1分数。使用scRNA-seq作为参考时仍保持0.95的准确率,显著优于专用工具AtacAnnoR(F1=0.88)。
空间转录组解析能力
在STARmap小鼠皮层数据中,ScInfeR(F1=0.73)准确重建空间细胞边界,性能是TACCO工具的1.9倍。对10X Visium人脑前额叶皮层数据,其整合空间坐标的策略使F1分数达0.77,而传统方法SCINA仅0.38。
抗批次效应与跨物种应用
在整合8批次的胰腺scRNA-seq数据中,ScInfeR克服批次变异实现F1=0.95。对拟南芥根尖(12种细胞类型)和水稻叶片(4种细胞类型)数据,其跨物种注释准确率分别达0.84和0.86。
这项研究开创性地建立了单细胞多组学注释的统一框架,其创新性体现在三个方面:技术层面首次实现标记基因与参考数据的协同利用;方法学上突破亚型识别难题;应用上覆盖主流单细胞技术平台。配套开发的ScInfeRDB数据库标准化了329种细胞类型的命名体系,解决了领域内长期存在的注释混乱问题。研究者特别指出,当参考数据与目标数据集存在批次效应时,建议使用Harmony投影构建邻接矩阵。未来计划将拓展至单细胞DNA甲基化等新兴技术,进一步巩固其在单细胞数据分析管道中的核心地位。该工具已开源(https://www.swainasish.in/scinfer),其高效精准的注释能力将为器官图谱构建、疾病机制解析等研究提供重要技术支持。