VARGG深度学习框架:推动空间转录组学精准空间域识别与细胞异质性分析的新突破
《Briefings in Functional Genomics》:VARGG: a deep learning framework advancing precise spatial domain identification and cellular heterogeneity analysis in spatial transcriptomics
【字体:
大
中
小
】
时间:2025年11月24日
来源:Briefings in Functional Genomics 2.5
编辑推荐:
本刊推荐:为克服空间转录组学中基因表达与空间信息整合的挑战,研究人员开发了VARGG深度学习框架。该框架结合预训练视觉Transformer(ViT)和图神经网络自编码器,通过多头注意力和高斯噪声处理提升特征表示能力。在10x Visium、Slide-seqV2等多平台验证显示,VARGG能精准识别胶质母细胞瘤、乳腺癌等疾病的空间域,发现VEGFA、CD74等关键靶点,为疾病机制研究和个性化治疗提供新视角。
当我们试图理解生命的基本单位——细胞在组织中的排布规律时,传统的单细胞RNA测序技术就像把一杯混合果汁分离出各种水果成分,却无法还原水果在果盘中的原始摆放位置。空间转录组学(Spatial Transcriptomics, ST)技术的出现,终于让我们能够同时获取基因表达信息和空间位置坐标,如同获得了细胞世界的"GPS定位系统"。然而,这项技术面临着一个核心挑战:如何准确识别具有相似基因表达模式和组织学特征的连续空间区域,即空间域(Spatial Domains)。
目前的方法各有限制:非空间聚类算法如Seurat和SCANPY忽略了空间背景信息,而空间聚类算法如Giotto、BayesSpace等又在精细检测、集群数预设、计算资源等方面存在不足。尽管深度学习方法如SpaGCN、DeepST等有所进展,但在处理复杂异质组织、多模态整合等方面仍显吃力。
为了解决这些难题,北京石油化工学院人工智能学院的研究团队在《Briefings in Functional Genomics》上发表了题为"VARGG: a deep learning framework advancing precise spatial domain identification and cellular heterogeneity analysis in spatial transcriptomics"的研究论文。他们开发了VARGG深度学习框架,通过创新性地结合预训练视觉Transformer(ViT)和图神经网络自编码器,实现了对空间域的高精度识别。
研究方法上,团队整合了来自多个平台的数据集,包括10x Visium的人类背外侧前额叶皮层(DLPFC)、胶质母细胞瘤、乳腺癌和成年小鼠脑数据集,Stereo-seq和Slide-seqV2平台的小鼠胚胎发育数据,以及MERFISH平台的小鼠下丘脑切片数据。技术核心是VARGG模型架构:首先使用预训练ViT处理H&E染色图像块提取形态特征,通过KDTree构建空间邻接矩阵,结合基因表达数据形成特征矩阵;然后采用多头注意力机制捕获复杂空间模式,使用去噪编码器和多层门控残差图卷积网络(RGGCNN)进行深度特征学习;最后通过变分自编码器生成潜在变量Z,利用Leiden方法进行聚类分析。
在人类背外侧前额叶皮层(DLPFC)数据集上的测试显示,VARGG在样本151673上获得了最高的调整兰德指数(Adjusted Rand Index, ARI)0.658。通过对12个切片的系统验证,VARGG的中位ARI达到0.586,显著优于STAGATE(P=0.030)和DeepST(P=0.037)。可视化结果清楚地显示,VARGG识别出的空间域边界更加平滑,噪声更少,与人工标注的皮质层(L1-L6)和白质结构高度一致。
在人类胶质母细胞瘤分析中,VARGG获得了最高的轮廓系数(Silhouette Coefficient, SC)0.27。研究人员发现VEGFA在簇2中显著高表达(P=1.03e-208),CD74在簇10中表达最高(P=1.37e-291)。这些基因与肿瘤血管生成和免疫微环境密切相关,同时新发现的TGDS基因差异表达为胶质母细胞瘤病理生理学研究提供了新的候选靶点。
VARGG在乳腺癌肿瘤微环境(Tumor Microenvironment, TME)分析中表现出色,ARI达到0.614。该模型准确识别了浸润性导管癌(Invasive Ductal Carcinoma, IDC)核心区域(IDC_4和IDC_8),而其他六种模型错误地将这些关键区域分割为不同类别。差异表达分析揭示了ARL2、TMEM145等基因在IDC核心微环境中的特异性表达模式,这些分子与肿瘤侵袭性和表观遗传调控密切相关。
对成年小鼠脑海马区的研究显示,VARGG(SC=0.281)能够清晰区分CA1、CA2、CA3和齿状回(Dentate Gyrus, DG)等关键亚区。研究人员发现Vxn、Ccn3、Pmch等基因与神经系统功能密切相关,这些基因的空间表达模式为了解阿尔茨海默病(Alzheimer's Disease, AD)早期海马区分子变化提供了重要线索。
VARGG在Stereo-seq、Slide-seqV2和MERFISH等多个平台上的成功应用证明了其卓越的泛化能力。在小鼠胚胎发育研究中,VARGG能够识别仅占后期组织5%的特定结构,如下丘脑和嗅球,并准确捕捉Sox2、Myl7等标记基因的动态表达模式。在MERFISH数据集上,VARGG在Bregma-0.09 mm和Bregma-0.04 mm切片上的ARI分别达到0.290和0.343,优于其他对比方法。
通过消融实验,研究人员验证了高斯噪声、多头注意力机制和ViT组件在VARGG中的重要作用。完整模型在DLPFC、人类乳腺癌和MERFISH数据集上均获得最高ARI值,而缺少这些组件的变体性能显著下降,证实了这些创新设计的有效性。
VARGG框架的成功开发标志着空间转录组学分析方法的重大进步。该框架通过整合ViT的全局形态特征提取能力和图神经网络的空间关系建模优势,解决了批次效应校正、多模态数据动态融合和自适应空间邻域构建等关键挑战。其在胶质母细胞瘤、乳腺癌、阿尔茨海默病模型和小鼠胚胎发育等多个重要生物学场景中的卓越表现,证明了其在解析组织结构和细胞异质性方面的强大能力。
相比现有方法,VARGG避免了启发式空间平滑或预定义邻域的局限性,能够动态整合空间、转录和形态学数据。这种能力对于捕捉多尺度生物相互作用至关重要,特别是在肿瘤-基质界面和神经退行性疾病模型中的海马亚区划分方面表现突出。虽然计算复杂度在处理超大规模数据时存在挑战,但通过高斯噪声和多层门控残差网络的引入,VARGG在保持模型鲁棒性的同时,为空间转录组学研究提供了更加精确和可靠的分析工具。
这项研究的成功不仅为发育生物学、肿瘤学和神经科学研究提供了强有力的分析方法,其开源特性也确保了广泛的适用性,有望推动空间组学研究的进一步发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号