《Bioinformatics》:Genome- and Peak-Informed Two-Stage Framework for scATAC-seq Cell Type Identification
编辑推荐:
本研究针对单细胞ATAC-seq数据注释中存在的序列信息利用不足和批次效应难题,提出了seqAlignATAC双阶段框架。该研究通过预训练DNA语言模型提取染色质开放区域的序列嵌入特征,并结合图域自适应技术有效对齐跨平台数据分布。实验表明该方法在跨平台(snATAC-seq/sciATAC-seq)任务中准确度最高达0.824,显著优于现有方法,为单细胞表观基因组学研究提供了更可靠的注释工具。
在单细胞表观基因组学领域,单细胞转座酶可及染色质测序(scATAC-seq)技术犹如一把高精度钥匙,能够解锁细胞群体中染色质开放状态的异质性密码。然而这把钥匙在使用过程中却面临两大核心挑战:一方面,染色质可及性数据具有极端稀疏性和高噪声特性,使得传统方法难以捕捉有效的生物学信号;另一方面,不同测序平台、实验批次和组织来源引入的批次效应,如同语言障碍般阻碍着跨数据集的知识迁移。现有注释方法往往陷入两难境地——基于scRNA-seq的跨模态方法因生物学差异导致准确性受限,而同类模态方法又难以同时兼顾序列信息和分布对齐。
针对这一困境,南京林业大学严柳团队在《Bioinformatics》发表的研究提出了创新性解决方案。他们开发的seqAlignATAC框架巧妙地将基因组序列信息与域自适应技术相结合,形成了双阶段分析管道。该研究的创新性体现在三个维度:首先直接利用原始峰序列通过预训练模型获取生物学意义明确的嵌入表示,其次采用监督式自适应对齐机制消除批次效应,最后坚持同类模态分析策略避免跨模态信息损失。
关键技术方法主要包括:(1)利用核苷酸转换器(Nucleotide Transformer)从染色质开放区域基因组序列中提取1024维嵌入特征;(2)构建源域和目标域细胞相似性图(k=15);(3)采用非对称图卷积网络设计(源域浅层传播/目标域深层传播);(4)通过梯度反转层和动态权重调整实现域对抗训练。实验涉及6个公共数据集,包括snATAC-seq平台的小鼠脑组织数据和10x Genomics平台数据。
序列信息提取模块的验证
通过设计严谨的消融实验,研究人员证实了核苷酸转换器嵌入的关键作用。当替换为传统的TF-IDF标准化+潜在语义索引(LSI)方法后,模型在所有跨平台任务中的准确度和宏F1值均出现显著下降。特别是在MosM1→WholeBrainA任务中,完整模型的准确度(0.803)比无序列嵌入版本高出约15个百分点,证明DNA序列提供的调控语境信息是不可替代的。
跨平台细胞类型注释性能
在最具挑战性的跨平台验证中,seqAlignATAC展现出卓越的泛化能力。如表1所示,在WholeBrainA→MosA1任务中,该方法以0.824的准确度和0.582的宏F1值显著优于所有基线模型,较次优方法scJoint提升约9个百分点。值得注意的是,在反向传输任务(MosA1→WholeBrainA)中同样保持0.701的领先准确度,证明其双向迁移的稳定性。
域自适应机制的有效性
研究团队通过对比Embedding(NT)+DA与Embedding(NT)+KNN变体,验证了域自适应模块的贡献。在跨组织数据集测试中,加入域自适应组件后模型对稀有细胞类型的识别灵敏度提升尤为明显,宏F1值平均提高0.2以上。动态调整的对抗训练权重(公式20)有效平衡了分类任务和域对齐目标,避免训练过程中的梯度冲突。
研究结论强调,seqAlignATAC成功将局部染色质可及性信号与全局DNA序列语境相结合,建立了细胞类型注释的新范式。该方法对批次效应的鲁棒性处理为整合多中心单细胞表观基因组数据提供了技术基础,而其完全基于同模态的策略避免了跨模态转换的不确定性。未来方向包括扩展至跨模态对齐、整合转录因子结合 motif 等生物学先验知识,以及引入不确定性估计机制,进一步推动单细胞多组学数据的整合分析。
这项工作的意义不仅在于提出了当前最先进的注释工具,更开创了将大规模预训练语言模型与单细胞基因组学相结合的新路径。随着DNA语言模型的持续进化,这种"序列感知+分布对齐"的双轮驱动策略有望成为处理复杂生物医学数据的标准范式。