
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于预训练图注意力网络的单细胞长程顺式调控关系预测方法SCRIPT及其在神经退行性疾病中的应用
【字体: 大 中 小 】 时间:2025年08月21日 来源:Advanced Science 14.1
编辑推荐:
本文推荐一种创新性深度学习方法SCRIPT(基于预训练图注意力网络的单细胞顺式调控关系识别器),该方法通过整合大规模单细胞染色质可及性数据(scATAC-seq)和转录组数据(scRNA-seq),结合图因果注意力网络(GCAT)和自监督图自编码器(SSGAE)技术,显著提升了单细胞分辨率下长程顺式调控关系(CRR)的预测精度(AUC达0.89)。研究证实SCRIPT在阿尔茨海默病(AD)和精神分裂症(SCZ)等复杂疾病中可精准定位致病非编码变异及其细胞类型特异性调控机制,为遗传诊断和靶点发现提供了新范式。
1 Introduction
人类基因组包含大量位于开放染色质区域的顺式调控元件(CRE),通过染色体环化(chromosomal looping)机制在三维空间内与靶基因建立长程调控关系(>100 Kb)。单细胞分辨率下的顺式调控关系(CRR)具有两大特征:高度细胞类型特异性,以及超过半数CRR的调控距离超过100 Kb。现有计算方法如LINGER和SCARLink虽能预测单细胞CRR,但存在生物学机制整合不足、训练数据规模有限等缺陷,尤其在长程CRR预测方面表现欠佳。
2 Results
2.1 The Overview of SCRIPT
SCRIPT创新性地将染色体环化机制转化为图神经网络架构,其核心包含两大模块:1)基于27个人类组织Hi-C数据和49个组织eQTL数据构建的图因果注意力网络(GCAT),模拟CRE与靶基因的定向调控;2)在130万单细胞scATAC-seq数据上预训练的自监督图自编码器(SSGAE),学习跨组织的CRE互作模式。该框架通过归因分析量化单细胞CRR调控分数,实现从染色质可及性到基因表达的因果推断。
2.2 The Performance Improvement of SCRIPT Benefits from Pretraining on Atlas-Scale Single Cell Data
消融实验显示,相比无预训练版本(SCRIPT-WOP)和小规模预训练版本(SCRIPT-POSD),全规模预训练的SCRIPT在细胞水平AUC(0.89 vs 0.85)和调控水平AUC(0.75 vs 0.71)上均显著提升。大规模预训练使基因表达预测误差降低42%,证实数据规模对模型性能的关键影响。
2.3 SCRIPT Outperforms Existing Methods in Cell-Type-Specific CRR Prediction
在脑组织、外周血单核细胞(PBMC)等5个独立数据集上,SCRIPT的细胞水平AUC(0.89)较LINGER(0.66)和SCARLink(0.7)提高30%以上。UMAP可视化显示,SCRIPT能清晰区分兴奋性神经元与抑制性神经元等亚群,而对比方法出现细胞类型混淆。引入CRR证据后,SCARLink-SCE的预测性能提升18%,但仍低于SCRIPT。
2.4 SCRIPT Demonstrates Superior Long-Range CRR Prediction
在皮层数据集中,SCRIPT对100 Kb-1 Mb长程CRR的预测AUC达0.90,是对照方法的2倍。典型案例分析显示:1)在TGFBR1基因座,SCRIPT准确识别距TSS 250 Kb的微glia特异性增强子,与PLAC-seq和H3K27ac ChIP-seq数据高度吻合;2)在CCR6基因座,SCRIPT发现4个远端增强子(最远775 Kb),其中两个存在BACH2转录因子结合位点,与B细胞中CCR6-BACH2共表达模式相互验证;3)在癌细胞系中,SCRIPT成功定位PLP2基因600 Kb外的调控元件。
2.5 SCRIPT Attends to Cell-Type-Specific Enhancers
H3K27ac标记的增强子与SCRIPT预测的高调控分数CRR显著重叠(P<1e-16)。差异分析发现,星形胶质细胞中CRR调控的基因富集于"β淀粉样蛋白清除"通路,与AD病理机制高度相关。
2.6 SCRIPT Understands the Pathogenic Mechanisms of AD and SCZ in a Cell-Type-Specific Manner
应用SCRIPT分析275个AD相关和1895个SCZ相关SNP发现:1)小胶质细胞是AD遗传风险的主要贡献细胞,其调控基因富集于"β淀粉样蛋白形成负调控"等通路;2)兴奋性神经元是SCZ的主要风险细胞,相关基因与突触可塑性密切相关;3)相比传统最近基因法,SCRIPT鉴定的疾病基因在患者组织中表达变化更显著(Wilcoxon P<0.05)。这些发现为解析非编码变异的细胞类型特异性机制提供了新视角。
生物通微信公众号
知名企业招聘