
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多尺度自适应图卷积网络与自编码器的空间多组学数据离散分布空间域识别方法spaMGCN
【字体: 大 中 小 】 时间:2025年06月11日 来源:Genome Biology 10.1
编辑推荐:
为解决空间转录组学中离散分布组织结构的识别难题,东北林业大学团队开发了spaMGCN模型。该研究整合空间转录组与表观基因组数据,通过自编码器提取特征并结合多尺度自适应图卷积网络(MACM),显著提升了小鼠脾脏T细胞区等离散结构的识别精度,在5种测序平台数据中ARI指标平均提升10.48%。该成果为复杂组织结构解析提供了新工具,发表于《Genome Biology》。
空间生物学领域长期面临一个关键挑战:传统空间转录组分析方法在识别连续分布的组织结构时表现良好,却难以准确划分功能相似但空间离散的细胞集群。例如淋巴组织中的T细胞区和滤泡细胞,它们离散分布于器官中却执行协同免疫功能。现有方法如SpaGCN、GraphST等过度依赖空间邻域信息,导致离散结构被错误分割;而单细胞聚类方法又完全忽略空间信息,造成组织结构的碎片化识别。这种技术瓶颈严重制约了科学家对复杂组织结构与功能的认知。
针对这一难题,东北林业大学计算机与控制工程学院的研究团队开发了spaMGCN——一种融合自编码器与多尺度自适应图卷积网络(Multi-scale Adaptive Convolution Module, MACM)的创新模型。该研究通过整合空间转录组和表观遗传组数据,在保持连续结构识别精度的同时,首次实现了对离散分布空间域的准确划分。相关成果发表在《Genome Biology》期刊,为空间多组学数据分析提供了新范式。
研究采用三大核心技术:1)多源特征融合架构,通过并行自编码器提取转录组(RNA-seq)和蛋白组(ADT)等不同组学数据的属性特征;2)MACM模块动态整合k阶邻域信息(k=4),采用注意力机制加权融合多尺度结构特征;3)基于Deep Graph Structural Infomax的二元交叉熵损失函数,增强相邻节点的互信息。实验数据涵盖10x Visium、Stereo-CITE-seq等5种测序平台生成的12个数据集,包括人类淋巴结、小鼠脾脏等典型离散分布组织。
研究结果部分显示出spaMGCN的突破性性能:
在模拟数据集上,spaMGCN准确重建了交叉形结构(Domain 0),ARI达0.989。人类淋巴结S1数据集分析中,模型将相邻的头骨、软骨和前脑组织清晰分离,平均ARI较次优方法SSGATE提升10.48%。尤为突出的是,在识别淋巴组织被膜时,spaMGCN避免了将之与周围皮质或脂肪组织错误合并(图5a),而对比方法SpatialGlue则出现严重混合。
针对小鼠脾脏T细胞区(图4c)和人类淋巴结滤泡(图4d)等典型离散结构,spaMGCN的F1分数分别达到0.816和0.756,较传统方法最高提升21.6%。支气管肿瘤数据集分析中,模型成功将三个离散分布的支气管区域归为同一类别(附加文件1图S11b),这是其他方法均未实现的。
通过构建块对角邻接矩阵(公式2),模型在人类淋巴结三切片数据中保持单切片分析性能(表1),并有效消除批次效应(图6a-d)。处理18,408个位点的E10.5小鼠胚胎数据时,spaMGCN_batch版本仅需5.2GB内存即完成心脏、肝脏等关键结构识别(图6e-g)。
在STARmap生成的mPFC数据集(337基因)中,spaMGCN中位ARI达0.749;人类胎盘单细胞多组学数据上,模型准确区分滋养层细胞与基质细胞(图7d),ARI较单组学方法提升0.22。
差异分析揭示CCL21基因(图8c)和HLA-DRA蛋白(图8d)分别标记淋巴结皮质区,与已知B淋巴细胞分布一致。E15小鼠脑数据中,染色质开放区域chr8:104022942-104023442(位于Gm32531非编码RNA内)特异性表征软骨组织(附加文件1图S20),从表观遗传层面验证了空间域划分的生物学合理性。
讨论部分强调了三个核心价值:首先,spaMGCN通过属性-结构多步融合机制(公式6-7),解决了图神经网络过度平滑与单细胞方法忽视空间信息的矛盾。其次,MACM模块(公式3-5)的创新设计使模型能自适应整合k阶邻域信息,在15个数据集的t检验中性能提升均具统计学意义(附加文件1图S25-28)。最后,研究证实多组学整合的必要性——在人类胎盘数据中,联合分析染色质可及性(ATAC-seq)与转录组使空间域边界清晰度提升37%。
该研究的局限在于对三组学数据的融合仍采用简单拼接法,未来需开发跨模态对齐算法。此外,如何整合H&E染色图像数据仍是待解难题。这些方向将成为团队下一步的研究重点。
总体而言,spaMGCN为空间生物学研究提供了强大工具,其创新性地平衡了空间连续性与功能相似性的关系,不仅推进了计算方法发展,更为理解组织微环境异质性提供了新视角。研究揭示的CCL21/CXCL13等空间标志基因为免疫微环境研究提供了新靶点,而建立的分析框架可扩展至更多组学数据类型,具有广阔的临床应用前景。
生物通微信公众号
知名企业招聘