MultiGATE:基于图注意力自编码器的空间多组学数据整合分析与调控关系推断新方法
《Nature Communications》:MultiGATE: integrative analysis and regulatory inference in spatial multi-omics data via graph representation learning
【字体:
大
中
小
】
时间:2025年10月25日
来源:Nature Communications 15.7
编辑推荐:
本研究针对现有空间多组学数据分析工具难以同时实现空间像素嵌入和跨模态调控关系推断的瓶颈,开发了MultiGATE这一创新性两层级图注意力自编码器框架。该技术通过巧妙整合多模态信息和空间邻近性,在人类海马、小鼠大脑和脾脏等多个组织数据集上验证了其在空间聚类精度和调控关系推断方面的优越性能,为深入探索组织微环境中的基因调控机制提供了强有力的工具。
在生命科学研究领域,空间组学技术的快速发展正在彻底改变我们对复杂组织和器官中分子表达模式的理解。特别是新兴的空间多组学技术,能够在同一组织切片上同时分析转录组和表观基因组/蛋白质标记,极大地拓展了空间技术的应用前沿。然而,这些高通量技术产生的多模态数据对分析方法提出了严峻挑战——如何有效整合不同模态的信息并揭示它们之间的调控关系,成为当前研究的重点难点。
传统的数据整合方法如MOFA+采用线性因子模型,totalVI使用变分自编码器框架,但这些方法都未能充分考虑空间信息的重要性。更近期的SpatialGlue虽然使用图卷积网络分别获取各分子模态的嵌入,然后通过注意力机制整合信息,但仍以主成分作为输入,且未在像素嵌入中建模跨模态调控关系。为了充分发挥空间多组学数据的潜力,迫切需要开发能够同时实现空间像素嵌入和跨模态调控关系推断的新方法。
针对这一需求,香港中文大学统计与数据科学系Lin Zhixiang团队与香港科技大学Yang Can团队合作,在《Nature Communications》上发表了题为"MultiGATE: integrative analysis and regulatory inference in spatial multi-omics data via graph representation learning"的研究论文。他们开发的多层级图注意力自编码器框架MultiGATE,创新性地解决了空间多组学数据整合分析中的关键问题。
MultiGATE的核心技术创新在于其两层级图注意力自编码器架构。第一层级的跨模态注意力机制专门建模跨模态特征间的调控关系(如峰值-基因、蛋白质-基因等),第二层级的内部模态注意力机制则整合空间信息,促使相邻像素的嵌入更加相似。此外,该方法还引入了对比语言-图像预训练(CLIP,Contrastive Language-Image Pretraining)损失来进一步促进跨模态数据整合。这种整体结构使得MultiGATE能够有效提取像素的低维表示用于聚类/空间域识别和数据可视化,同时揭示跨模态特征的顺式调控(cis-regulation)、反式调控(trans-regulation)和蛋白质-基因相互作用等调控关系。
关键技术方法方面,研究团队收集了来自不同组织和技术的多个空间多组学数据集,包括空间ATAC-RNA-seq(同时分析染色质可及性和基因表达)、SPOTS(同时分析全转录组和蛋白质标记)以及Slide-tags(同时分析开放染色质和RNA表达)等数据。通过两层级图注意力自编码器框架,第一层级构建特征连接图整合跨模态特征,第二层级利用空间邻域图捕获每个模态中点位的空间信息。采用包含重构损失和CLIP对比损失的复合损失函数,使用Adam优化器进行模型训练,并通过调整兰德指数(ARI,Adjusted Rand Index)和组内相关系数(ICC,Intraclass Correlation Coefficient)等指标评估性能。
研究人员首先将MultiGATE应用于成人脑海马空间ATAC-RNA-seq数据集的分析。通过手动标注海马层和白质作为真实标签,他们评估了不同方法的聚类准确性。在所有评估方法中,MultiGATE在检测人海马层结构方面取得了最高准确率(ARI:MultiGATE 0.60,SpatialGlue 0.36,Seurat WNN 0.23)。视觉检查聚类结果发现,MultiGATE比SpatialGlue更清晰地解析了分子层(ML)和脉络丛。
为了验证MultiGATE注意力机制在捕获顺式调控相互作用方面的准确性,研究人员将MultiGATE估计的注意力分数与外部队列eQTL(expression quantitative trait loci)数据进行比较。结果显示,MultiGATE估计的注意力分数随着基因组距离的增加而降低,而受人海马eQTL数据支持的峰值-基因对表现出更高的注意力分数。与Cicero、Spearman相关和LASSO回归相比,MultiGATE在识别峰值-基因关联方面获得了最佳的AUROC(area under the receiver operating characteristic curve)分数(0.703)。
研究人员进一步考察了MultiGATE识别的峰值-基因相互作用的生物学相关性,重点关注了海马中具有明确功能重要性的基因,包括CA12和PRKD3。对于这些基因,MultiGATE成功识别了受海马特异性eQTL支持的峰值-基因关联,而非显著关联通常不被eQTL信号支持。差异表达基因(DEGs,differentially expressed genes)分析显示,已知海马分子标记物如SLC1A2在特定区域表达,而PLP1在MultiGATE识定的腔隙分子层区域高表达。该区域DEGs的基因本体(GO,Gene Ontology)分析显示髓鞘形成显著富集,与PLP1的已知功能一致。
MultiGATE在小鼠脑中重现分层模式并实现调控推断
研究人员进一步将MultiGATE应用于分析从小鼠出生后第22天(P22)大脑生成的空间ATAC-RNA-seq数据集。使用Allen脑图谱提供的P56冠状注释作为参考,定量评估显示MultiGATE在所有比较方法中获得了最高的综合ICC分数。
MultiGATE和SpatialGlue都表现出检测胼胝体膝部(ccg)、侧脑室(VL)、尾壳核(CP)、嗅束(aco)和外侧视前区的能力,并能准确识别皮层中存在的六层。然而,MultiGATE更准确地区分了最外层皮层(簇5),而SpatialGlue中的簇5没有显示簇富集标记,表明是多种细胞类型的异质性混合物。
为了验证MultiGATE在推断峰值-基因调控方面的注意力机制,研究人员使用了两个验证数据集:EnhancerAtlas和EGAS用于增强子-基因调控。结果显示,MultiGATE估计的注意力分数随着基因组距离的增加而降低;此外,在峰值与调节相应基因的增强子重叠的峰值-基因对中观察到更高的注意力分数。与Cicero、Spearman相关和lasso回归相比,MultiGATE在识别峰值-基因调控对方面表现最优。
研究人员还证明了MultiGATE有效结合了多模态信息的能力。单独检查每个分子模态的聚类结果发现,ATAC-seq生成的空间聚类在上下文分层和内部结构方面提供更多信息性模式,RNA-seq也提供有价值的补充信息。MultiGATE整合两种模态产生更准确和全面的聚类结果。
MultiGATE在多样化空间多组学技术中揭示空间模式
SPOTS是一种在保留组织结构的同时联合分析全转录组和蛋白质标记的空间多组学技术。研究人员首先分析了从小鼠脾脏生成的SPOTS数据集。MultiGATE在所有五种方法中获得了最高的综合ICC分数,识别出五个簇:T细胞、B细胞和三种不同的巨噬细胞亚型。空间上,T细胞位于中心,周围是B细胞,进一步被连续的白色髓质巨噬细胞(WPM)、边缘区巨噬细胞(MZM)和红色髓质巨噬细胞(RPM)层包围。这种解剖学上一致的分层反映了脾脏结构,突出了MultiGATE区分空间组织免疫细胞群的能力。
值得注意的是,与SpatialGlue相比,MultiGATE展示了更精确的T细胞和B细胞聚类。通过比较每种方法识别的T细胞和B细胞簇中CD3蛋白的ADT(antibody-derived tags)表达评估这一点。由于CD3不在B细胞中表达,能更好分离这些群体的方法应在两个簇之间产生更大的CD3表达差异。事实上,MultiGATE的聚类在CD3表达上显示出显著更大的分离。
研究人员还将MultiGATE应用于从转移性黑色素瘤样本生成的Slide-tags数据集,其中开放染色质和RNA表达在单个细胞核中分析,同时提供细胞核空间位置的空间条形码。该数据集主要包括两个肿瘤簇,如原始研究中注释的那样。MultiGATE与SpatialGlue和Seurat WNN准确将肿瘤细胞分为两个簇。MultiGATE识别的肿瘤簇1和簇2之间DEGs的进一步分析揭示了不同的表达模式。簇1以间充质样状态为特征,具有TNC的高表达和染色质可及性,同时MHC(major histocompatibility complex)基因下调,表明免疫逃避和潜在免疫治疗耐药性。相比之下,簇2显示黑色素细胞样状态,具有DCT和APOE高表达,MHC基因相对上调,表明抗原呈递增强。
为了进一步证明MultiGATE across测量技术和组织类型的多功能性,研究人员进行了三项额外评估:空间转录组学和代谢组学的整合,显示MultiGATE可以联合分析没有基因组距离先验的模态;人乳腺癌空间RNA+蛋白质数据分析;以及模拟的乳腺癌模式空间ATAC+RNA数据集分析。在所有情况下,MultiGATE都优于竞争方法,准确恢复了空间域。
研究结论与讨论部分强调,空间多组学分析已成为理解生物系统中基因、染色质可及性、蛋白质和空间组织之间相互作用的强大方法。MultiGATE的两层级图注意力框架利用图注意力机制整合空间多组学数据,与现有方法相比,在同时实现像素嵌入和跨模态调控关系推断方面提供独特优势。注意力分数将基因组距离作为先验知识纳入,以建模跨模态调控相互作用,为转录调控提供新见解。此外,MultiGATE学习的潜在表征能够实现准确的空间聚类和增强的可视化。
除了建模顺式调控外,MultiGATE还可以通过整合TF(transcription factor)结合先验和学习TF-峰值-基因注意力分数来捕获反式调控相互作用。虽然初步结果令人鼓舞,但由于脑组织中高质量ChIP-seq(chromatin immunoprecipitation sequencing)数据集的可用性有限,大规模验证仍然具有挑战性。未来努力将旨在随着更多组织特异性数据集的可获得性,扩大反式调控验证的范围。
目前,MultiGATE未将组织学图像整合到像素嵌入中,因为空间ATAC-RNA-seq数据集中仅提供明场图像。先前的研究表明,将组织学图像与基因表达数据结合可以改进细胞分割,并实现高分辨率基因表达。作为未来方向,MultiGATE的后续迭代可以整合一个额外的预训练编码器,用于处理组织学图像。
总之,MultiGATE是空间多组学数据分析的重要方法。其多组学和空间信息的整合、高质量嵌入的生成以及调控交互的推断,使其成为解析基因调控和空间组织的宝贵工具。预计MultiGATE将促进生物研究各个领域的发现和进展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号