基于语言模型的scATAC-seq数据自动细胞类型注释方法annATAC的开发与应用

【字体: 时间:2025年05月30日 来源:BMC Biology 4.4

编辑推荐:

  单细胞ATAC测序(scATAC-seq)数据的高稀疏性和高维度特性给细胞类型注释带来巨大挑战。为解决这一问题,研究人员开发了基于语言模型的新型自动注释工具annATAC。该方法通过预训练学习peak间相互作用关系,结合少量标记数据微调,在多种组织数据集上展现出优于现有方法的注释性能。annATAC不仅能准确预测已知细胞类型,还能识别新型细胞类型,并在阿尔茨海默病(AD)研究中成功鉴定出特定细胞亚型的marker peak和marker motif。该研究为单细胞表观组学分析提供了强有力的新工具,相关成果发表在《BMC Biology》。

  

在生命科学研究中,细胞类型鉴定是单细胞数据分析的关键环节。尽管单细胞RNA测序(scRNA-seq)技术已相对成熟,但针对单细胞染色质可及性测序(scATAC-seq)数据的专用分析工具仍然匮乏。scATAC-seq数据具有两个显著特征:一是极高的数据稀疏性,由于二倍体基因组中开放位点捕获机会有限;二是超高维度,源于染色质结构和状态的复杂性。这些特性使得scATAC-seq数据的注释工作面临巨大挑战。

目前scATAC-seq数据注释算法主要分为两类:标签转移方法和自动注释方法。前者通过统计模型寻找两种组学数据间的相似细胞,将scRNA-seq数据的标签转移到scATAC-seq数据上,但由于两种数据分布差异,这种方法存在局限性。后者虽不依赖scRNA-seq数据标签,但多数方法需要先将peak-cell矩阵转换为其他形式,这一过程不仅忽略了peak对特定细胞类型的调控信息,还可能因格式转换引入额外不确定性。

针对这些挑战,东北林业大学等机构的研究人员开发了基于语言模型的自动注释方法annATAC。该方法创新性地利用大量未标记scATAC-seq数据进行预训练,使模型能够学习peak间的相互作用关系;随后使用少量标记数据进行微调,最终实现对scATAC-seq数据的自动注释。研究结果表明,annATAC在多种组织数据集上的注释性能优于现有方法,并能识别新型细胞类型。特别是在阿尔茨海默病(AD)研究中,annATAC成功鉴定出特定神经细胞亚型的标记峰和标记模体,为疾病机制研究提供了新线索。相关成果发表在《BMC Biology》杂志。

研究采用了几个关键技术方法:1) 基于peak island的数据预处理,将每条染色体划分为5000bp的bin,有效降低数据稀疏性;2) 改进的BERT架构,采用Linformer的多头注意力机制处理高维数据;3) 两阶段训练策略,先在大规模未标记数据上预训练,再用少量标记数据微调;4) 使用来自GEO数据库的13种人类组织共1,011,883个细胞的scATAC-seq数据进行模型训练和验证。

研究结果部分显示:

"Performance evaluation of cell type annotation"表明,在8种成人组织数据上,annATAC的准确率(ACC)、Jaccard加权和Cohen's kappa等指标均优于基线方法。特别是在细胞数量最多的Esophagus Muscularis数据上,annATAC的ACC显著领先;而在样本量较小的Stomach数据上,其ACC略低于Cellcano,研究者认为这是小样本数据高稀疏性所致。

"annATAC can identify novel cell types"显示该方法能有效识别新型细胞类型。在Adipose Omentum组织中,模型将大多数脂肪细胞正确预测为"Novel_cell_type",少数预测为成纤维细胞,这与两者均来源于间充质的生物学知识一致。

"Performance evaluation of cell subtype annotation"证实annATAC在细胞亚型注释方面同样表现出色。在9个AD患者和对照组的神经元亚型数据集中,无论数据规模大小,annATAC始终保持较高注释准确率。特别是在AD患者数据上,其ACC比Cellcano高出近10个百分点。

"Biological analysis of Alzheimer's disease"展示了annATAC在生物医学研究中的应用潜力。通过分析AD患者数据,研究者发现LHX家族富集的peak是星形胶质细胞(ASC)的标记峰,NEUROG家族富集的peak是兴奋性神经元(EX)的标记峰,这与已有研究结果一致。此外,转录因子足迹分析揭示了SOX4和SOX17在少突胶质细胞(ODC)中的特异性结合模式。

"Model robustness testing"验证了模型的稳定性。实验表明,即使对微调数据标签进行20%随机打乱,模型预测ACC仍保持相对稳定;当仅使用40%微调数据训练时,模型仍能保持较好性能。消融实验证明预训练阶段对模型性能至关重要,引入预训练模型可使初始ACC从0.32提升至0.67。

在讨论部分,研究者指出annATAC具有三方面创新:1) 不依赖其他组学信息的自动注释能力;2) 新型细胞类型预测功能;3) 针对特定下游任务的可定制微调。尽管存在数据稀疏性尚未完全解决等局限,但通过预训练消融实验有力证明了预训练阶段对下游细胞类型注释任务的关键作用。

该研究的结论强调,annATAC为scATAC-seq数据注释提供了创新解决方案。其预训练-微调框架充分利用大量未标记数据学习peak间相互作用,再通过少量标记数据适应特定任务,在细胞类型和亚型注释中都展现出优越性能。特别是在AD研究中展现的标记峰和标记模体识别能力,为疾病机制研究提供了新视角。作为单细胞表观组学分析的重要工具,annATAC有望推动相关生物医学研究领域的深入发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号