《Cell Genomics》:MultiSP deciphers tissue structure and multicellular communication from spatial multi-omics data
编辑推荐:
本研究针对当前空间多组学数据整合分析中存在的模态对齐难、噪声干扰大、空间连续性保持不足等挑战,开发了深度学习框架MultiSP。该工作通过变分自编码器与生成对抗网络的协同优化,实现了RNA、ATAC、ADT等多模态数据的有效融合与去噪,在多个真实数据集上显著提升了空间域识别精度,并成功揭示了肿瘤微环境中具有不同预后特征的巨噬细胞亚群空间分布规律,为复杂组织的多模态空间解析提供了强大工具。
随着空间组学技术的迅猛发展,科学家们现在能够在保留原始空间位置信息的同时,对组织切片中的基因表达(RNA)、染色质可及性(ATAC)和蛋白质表达(ADT)进行联合检测。这种多模态空间组学技术为揭示组织发育、疾病发生等生命过程中的细胞异质性和相互作用提供了前所未有的机会。然而,海量多维数据的整合分析面临严峻挑战:不同模态的数据特性差异显著(如RNA数据的高维稀疏性与ADT数据的低维连续性),技术噪声干扰严重,且如何有效利用空间邻近信息来提升细胞状态识别的准确性仍是未解难题。
为了突破这些技术瓶颈,武汉大学的研究团队在《Cell Genomics》上发表了题为“MultiSP: a deep learning framework for spatial domain detection by integrating spatial multi-omics data”的研究论文,开发了一种名为MultiSP的新型深度学习框架。该框架通过创新性地结合变分自编码器(VAE)和生成对抗网络(GAN),实现了多模态空间组学数据的高效整合与去噪,显著提升了空间域识别的准确性。
研究团队为开展此项工作,主要采用了以下几项关键技术方法:首先,他们收集了来自10x Genomics Visium、SPOTS、MISAR-seq、spatial ATAC-RNA-seq等多个平台的公开数据集,涵盖小鼠大脑、胚胎、脾脏、乳腺癌以及人类皮肤、扁桃体等多种组织类型。其次,设计了基于图卷积网络(GCN)的模态特异性编码器,有效融合了空间邻近关系与分子特征相似性。接着,利用变分自编码器对RNA数据采用零膨胀负二项分布(ZINB)建模,对ATAC数据采用零膨胀泊松分布(ZIP)建模,实现了数据的有效去噪。最后,通过对抗性对齐策略促进不同模态在潜在空间中的有效融合。
MultiSP准确识别小鼠大脑解剖结构并实现空间数据去噪
研究团队首先在小鼠大脑空间ATAC-RNA-seq数据集上验证了MultiSP的性能。结果显示,MultiSP不仅能够清晰区分大脑皮层、丘脑、小脑蚓部等主要解剖结构,还能识别出如背侧皮层套膜区(Dpallm)和室管膜区(Dpallv)等精细亚结构。与Seurat、STAGATE、GraphST等方法相比,MultiSP在调整兰德指数(ARI)、标准化互信息(NMI)等多项评估指标上均取得最优成绩。更重要的是,MultiSP生成的去噪数据显著增强了基因表达的空间模式,如Neurod2和Olig1等标记基因在去噪后展现出更清晰的空间表达梯度,为研究大脑发育过程中的基因调控网络提供了高质量数据基础。
MultiSP解析不同发育阶段小鼠大脑结构
应用MultiSP于E11.0、E13.5、E15.5和E18.5四个发育时间点的小鼠大脑空间ATAC-RNA-seq数据,研究团队成功追踪了大脑发育过程中的空间域动态变化。特别是在E15.5样本中,MultiSP准确识别了眼睛原基区域,而对比方法MISO则完全未能检测到该结构。通过转录因子 motif 富集分析,研究发现Neurod2基因与其调控 motif MA0668.1在皮层区域呈现共定位模式,而Olig1与 motif MA0826.1则显示不同的空间分布规律,暗示了发育过程中不同的基因调控逻辑。
MultiSP揭示肿瘤相关巨噬细胞富集区的空间邻接关系与预后差异
在乳腺癌微环境研究中,MultiSP成功识别了七个功能各异的空间域,包括两个巨噬细胞富集区(Mac-1和Mac-2)、两个成纤维细胞富集区(Fib-1和Fib-2)以及上皮细胞、浆细胞和瘤周区域。值得注意的是,空间相邻的Mac-1和Mac-2区域表现出截然不同的分子特征:Mac-1高表达Xbp1等炎症相关基因,而Mac-2则富集Mmp2、Spp1等与细胞外基质重塑和免疫抑制相关的基因。生存分析进一步揭示,基于Mac-2区域特征基因计算的基因集变异分析(GSVA)评分与患者不良预后显著相关(p = 0.021),而Mac-1区域特征则显示保护性趋势。这一发现为理解肿瘤异质性和免疫治疗耐药机制提供了重要线索。
MultiSP提升细胞间通讯推断的可靠性
研究团队还扩展了CellChat方法,开发了能够同时利用基因表达和蛋白质表达信息的空间多模态细胞通讯推断流程。在小鼠脾脏数据上的应用表明,与传统仅基于mRNA的方法相比,整合ADT蛋白质数据能够更准确地识别细胞间相互作用。例如,白介素16(IL-16)-CD4信号通路在仅使用RNA数据时被认为同时作用于T细胞和B细胞区域,而结合蛋白质表达后,该信号被精确限定于CD4蛋白高表达的T细胞富集区,这与IL-16已知的T细胞活化调控功能更为一致。
MultiSP框架的通用性验证
为全面评估MultiSP的性能,研究团队在人类皮肤空间CITE-seq数据、小鼠胚胎空间DBiT-seq数据以及人类扁桃体10x Genomics数据等多个数据集上进行了测试。在所有案例中,MultiSP均表现出优于或相当于当前最先进方法的性能,特别是在保持空间连续性方面表现突出。此外,MultiSP还展示了良好的可扩展性,在包含约80,000个细胞的CODEX小鼠脾脏数据集上,其运行时间随数据量增长保持在合理范围内。
这项研究的结论部分强调,MultiSP通过其创新的深度学习架构,成功解决了多模态空间组学数据整合中的关键挑战。该框架不仅能更准确地识别组织中的空间功能域,还能有效去噪并揭示模态间互补的生物信息。特别是在肿瘤微环境研究中,MultiSP发现了空间相邻但功能迥异的巨噬细胞亚群,其中Mac-2亚群的特征与患者不良预后相关,这为开发新的免疫治疗策略提供了潜在靶点。
讨论部分指出,MultiSP的主要优势在于其灵活的框架设计,能够适应不同类型的空间多组学数据组合(RNA+ATAC、RNA+ADT、RNA+ATAC+Image等)。然而,研究也承认当前版本存在一些局限性,如对大规模数据的计算效率有待优化,以及对某些数据类型(如高度稀疏的ATAC数据)的建模可能需要进一步改进。未来工作将集中于扩展模型以处理更多模态数据(如空间代谢组学)、整合单细胞多组学参考数据,以及开发更高效的计算算法以应对日益增长的数据规模。
总体而言,MultiSP为空间多组学数据的深入挖掘提供了强大而灵活的工具,有望在发育生物学、肿瘤学、神经科学等领域发挥重要作用,推动我们对组织结构和功能的理解进入新的维度。随着空间多组学技术的不断普及和数据的持续积累,像MultiSP这样的计算生物学方法将在转化医学研究中扮演越来越关键的角色。