基于扩散Transformer和表观基因组信息整合的scATAC-seq细胞自动注释新方法scDIFF

《Briefings in Bioinformatics》:scDIFF: automatic cell type annotation using scATAC-seq data by incorporating bulk-level genomic and epigenomic information in a deep diffusive transformer

【字体: 时间:2025年11月16日 来源:Briefings in Bioinformatics 7.7

编辑推荐:

  为解决单细胞ATAC测序数据极端稀疏性导致的细胞注释难题,天津大学团队开发了scDIFF模型。该研究创新性地整合bulk水平基因组与表观基因组信息,通过深度扩散Transformer架构实现跨平台细胞注释,在46个基准测试中均优于现有方法,为单细胞表观遗传分析提供了新范式。

  
在单细胞生物学飞速发展的今天,科学家们能够通过单细胞转座酶可及染色质测序(scATAC-seq)技术在单个细胞水平观察染色质的开放状态,这为了解细胞分化、发育过程以及疾病机制打开了新窗口。然而,这条探索之路并非坦途——scATAC-seq数据通常具有极端的稀疏性,每个细胞仅能捕获不到10%的可及染色质峰,加之不同数据集间的可及区域存在显著差异,使得传统的分析方法举步维艰。
目前的主流方法大多通过创建人工基因活性矩阵来规避这一难题,但这种方法却忽略了scATAC-seq峰本身所蕴含的丰富生物学信息。另一方面,随着公共数据库中高质量scATAC-seq数据的快速积累,如何实现新数据集的自动、准确细胞类型注释成为了亟待解决的关键问题。虽然监督学习方法在单细胞RNA测序(scRNA-seq)分析中已展现出强大优势,但在scATAC-seq数据上的应用却相对滞后。
针对这一挑战,天津大学的研究团队在《Briefings in Bioinformatics》上发表了题为"scDIFF: automatic cell type annotation using scATAC-seq data by incorporating bulk-level genomic and epigenomic information in a deep diffusive transformer"的研究论文,提出了一种名为scDIFF的创新方法。该方法摒弃了传统的人工基因活性矩阵构建思路,转而直接利用scATAC-seq峰的内在信息,同时整合bulk水平的基因组和表观基因组信息,通过深度扩散Transformer架构实现高效的细胞类型注释。
研究团队首先从GEO数据库等公共资源中收集了25个scATAC-seq数据集,涵盖骨髓、肺、大脑、肾脏等多种小鼠和人体组织,这些数据集来自不同的测序平台,包括sciATAC-seq、snATAC-seq和10x Genomics技术。同时,从ENCODE数据库获取了人和小鼠的H3K4me1、H3K4me3、H3K27ac等组蛋白修饰的ChIP-seq数据作为bulk水平表观基因组信息。
scDIFF的技术流程包含几个关键环节:数据预处理阶段对peak-by-cell矩阵进行二值化处理,保留至少在1%细胞中出现的峰,并通过LiftOver工具和BEDTools实现参考数据集与查询数据集峰的坐标对齐。细胞表示编码器以每个峰为中心取1344bp的DNA序列,结合相应的表观基因组信息,通过包含预卷积模块、CNN堆栈、后卷积模块和密集模块的深度学习架构,生成64维细胞表示。扩散Transformer(DIFFormer)模块则利用细胞表示构建细胞-细胞相似性图,通过4层DIFFormer模块传播细胞间共享信息,有效消除批次效应。最后通过多层感知机(MLP)分类器实现细胞类型注释。
细胞类型注释性能
研究团队在14对参考-查询数据集上对scDIFF进行了系统评估,与SANGO、EpiAnno、Cellcano等8种现有方法进行比较。结果显示,scDIFF在14个数据集对中平均Cohen's kappa系数达到0.94,在10个数据集上表现最优,仅在4个数据集上略逊于SANGO。值得注意的是,所有直接使用peak-by-cell矩阵的方法均优于那些依赖人工基因活性矩阵的方法。
稀有细胞类型注释
在BoneMarrowA_BoneMarrowB和WholeBrainA_WholeBrainB两对数据集上,scDIFF在稀有细胞类型注释方面展现出卓越性能。对于占比不足1%的NK细胞和调节性T细胞,scDIFF的正确注释率分别达到73%和44%;对于占比不足2%的浦肯野细胞和SOM+中间神经元,正确注释率更是高达92%和62%,显著优于其他对比方法。
相似细胞亚型区分
scDIFF在区分密切相关的细胞亚型方面表现突出。在骨髓数据集中,NK细胞、调节性T细胞与其他T细胞在UMAP图上形成密集混合区域,但scDIFF仍能有效区分这些亚型,正确注释率分别为73%、44%和36%,而EpiAnno和Cellcano几乎完全无法区分这些亚型。在大脑数据集中,对于皮质投射神经元的三个亚型(CPN、CThPN、SCPN),scDIFF的正确注释率达到92%、86%和78%,再次证明其在高相似度细胞群体区分中的优势。
数据集不平衡性影响
研究人员定义了不平衡评分指标(I∈[0,1])来量化数据集的不平衡程度。结果显示,scDIFF在不同不平衡程度的数据集上均能保持稳定的注释性能,而其他多数方法随着不平衡程度的增加性能明显下降。类似地,随着细胞类型数量的增加,scDIFF也展现出优于其他方法的稳健性。
跨测序平台性能
针对不同测序平台(10x Genomics、snATAC-seq、sciATAC-seq)之间的批次效应问题,研究团队在19对跨平台数据集上测试了scDIFF的性能。scDIFF平均kappa系数达到0.70,优于其他先进方法。特别值得注意的是,在组织匹配的MosP1_MouseBrain(10x)对上,scDIFF取得了0.96的优异性能,表明当有匹配的ChIP-seq数据支持时,scDIFF能够有效克服平台差异。
多参考数据集整合
scDIFF在整合多参考数据集方面展现出独特优势。在人类肾脏数据集的五重交叉验证中,使用合并参考数据集时,scDIFF在五对中的四对上优于其他方法。当合并不同组织(大脑和肠道)的参考数据集时,scDIFF同样表现优异,无论采用表观基因组信息的并集策略、交集策略还是完全不用表观基因组信息,其性能均优于SANGO等对比方法。
表观基因组谱的影响
研究人员深入探讨了不同组蛋白修饰(H3K4me1、H3K4me3、H3K27ac)对注释性能的影响。有趣的是,在PBMC数据集上,单独使用H3K4me1(κ=0.893)或H3K4me3(κ=0.887)反而优于使用全部三种修饰的完整模型(κ=0.879),这表明有选择性地整合表观基因组特征可能比使用所有可用信息更为有效。
可解释性分析
研究团队通过多种生物学验证手段证明了scDIFF注释结果的可靠性。覆盖图显示,scDIFF注释的细胞类型在其标记基因(如星形胶质细胞的Ndrg2、内皮II细胞的Itm2a、兴奋性神经元的Neurod6)附近呈现明显的染色质可及性富集模式。SNPsea分析进一步证实,基于细胞类型特异性峰的单核苷酸多态性(SNP)在脑相关组织中显著富集。 motif富集分析发现,抑制性神经元和SOM+中间神经元的motif特异性高达82.5%,而少突胶质细胞的特异性相对较低(32.5%),这些发现与已有文献报道高度一致。
该研究的成功实施标志着单细胞表观基因组分析迈入了新阶段。scDIFF不仅提供了准确的细胞类型注释工具,更重要的是建立了一个整合多组学信息的通用框架,为理解单细胞水平的基因调控机制提供了新视角。其独特的扩散Transformer架构能够有效消除批次效应,使得跨平台、跨组织的数据整合成为可能,这将极大促进单细胞表观遗传学数据的共享与综合利用。未来工作中,进一步优化表观基因组特征的选择策略以及探索更高效的架构设计,将有望继续提升单细胞注释的准确性与效率。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号