《Nature Communications》:HRCHY-CytoCommunity identifies hierarchical tissue organization in cell-type spatial maps
编辑推荐:
为解决从细胞类型空间图谱中识别具有完整嵌套关系的多层次组织结构的难题,研究人员开发了HRCHY-CytoCommunity这一图神经网络框架。该框架通过端到端模型集成可微分图池化等技术,能够从多样化的空间组学数据中,同时推断跨尺度的稳健结构,并揭示与乳腺癌患者预后相关的空间模式,为从单细胞到完整组织的解析提供了通用工具。
在生命科学研究中,理解复杂的多细胞生物体如何从一个受精卵发育而来,其奥秘不仅藏在细胞的基因序列里,更蕴含在无数细胞如何精密地“排兵布阵”之中。组织并非细胞的简单堆积,而是多种细胞类型在空间上精确组装,形成从微小“邻里”(细胞邻域)到大型“功能社区”(组织分区)的嵌套式、多层次结构。这种层次化的空间组织对器官功能维持、疾病发生发展至关重要。然而,随着空间组学(Spatial Omics)技术的爆发式发展,科学家们能够以前所未有的分辨率绘制出组织样本中每个细胞的位置和类型图谱,却也面临着一个新的“甜蜜的烦恼”:面对海量的细胞点阵数据,如何像拥有“火眼金睛”一样,自动、准确且不失真地从这些空间图谱中识别出这些天然的、具有层级关系的多尺度组织模块?
传统方法多聚焦于识别单一尺度的结构,或是将不同尺度的分析割裂开来,难以捕捉从微观到宏观的完整嵌套关系。这就像只看清了一棵树或一片森林,却无法同时理解树枝、树冠与整片森林之间如何逐级构成。这一瓶颈限制了我们全面解码组织构建原则以及与疾病(如癌症)关联的复杂空间模式的能力。正因如此,开发一种能够直接从细胞类型空间图谱中,端到端地解析多层次、全嵌套组织结构的计算方法,成为了领域内亟待攻克的关键挑战。
为了攻克这一难题,一支研究团队提出了HRCHY-CytoCommunity。这是一个基于图神经网络(Graph Neural Network, GNN)的创新计算框架,专门用于从带有细胞类型注释的空间点图中识别多级组织层次结构。该框架的核心是巧妙地集成了可微分图池化(Differentiable Graph Pooling)、自适应边修剪(Adaptive Edge Pruning)以及一致性与平衡正则化(Consistency and Balance Regularization)。通过这种一体化端到端建模,HRCHY-CytoCommunity能够同时推断出跨越多个空间尺度的稳健结构,并确保两个关键特性:一是“完全细胞覆盖”,即每个细胞都被合理分配到某一层级的结构中,无“游离”细胞;二是“完全嵌套关系”,即较细尺度的结构(如细胞邻域)能够完美地嵌入到较粗尺度的结构(如组织分区)之中,形成清晰的层次树。此外,该框架还支持通过基于细胞类型富集的聚类方法,对不同样本间推断出的层次结构进行对齐比较,从而实现跨样本分析。研究人员在多种空间组学数据集上对HRCHY-CytoCommunity进行了基准测试,结果表明,无论是在识别粗粒度的组织功能区,还是细粒度的细胞微环境方面,其性能均优于现有的分层和非分层方法。当应用于一组具有临床结局的乳腺癌队列数据时,HRCHY-CytoCommunity的强大解析能力得以彰显:它不仅能够依据肿瘤空间组织的层次特征对患者进行具有预后价值的层级化分型,还成功揭示了与患者生存期显著相关的特定空间组织模式。这项研究成果已发表在《Nature Communications》期刊上。
为了开展此项研究,作者主要运用了以下几项关键技术方法:首先是构建细胞空间关系图,将每个细胞视为节点,并根据空间邻近性建立边。核心是HRCHY-CytoCommunity模型本身,它集成了可微分图池化操作来逐步粗化图结构以得到不同层次,结合自适应边修剪优化连接,并利用一致性正则化保证层次间的嵌套性、平衡正则化保证聚类大小均衡。在模型训练中,采用无监督方式进行。在跨样本分析时,采用了基于细胞类型富集谱的层次聚类方法对齐不同样本的社区结构。所使用的数据包括公开的及作者收集的多种空间转录组和成像数据,其中乳腺癌预后分析队列包含有临床随访信息的样本。
HRCHY-CytoCommunity框架设计
本研究提出了HRCHY-CytoCommunity这一全新框架。其输入是带有细胞类型标签的空间坐标数据,通过构建K近邻图来初始化细胞间的空间关系。框架的核心是一个包含多层可微分池化操作的图神经网络。每一层池化操作会将当前层次的图粗化,合并某些节点(细胞)以形成上一尺度的“超节点”(即推断出的组织结构),同时自适应地修剪掉不必要的边以优化社区结构。通过引入一致性正则化,框架强制要求细粒度层次中推断出的社区必须完全归属于粗粒度层次中的某个社区,从而保证了层次间的完全嵌套性。平衡正则化则用于避免产生规模极端不均的社区。整个过程以无监督、端到端的方式同时学习所有层次的结构。
在仿真和真实数据上的性能评估
研究人员在仿真数据和多种真实空间组学数据集上对HRCHY-CytoCommunity进行了系统评估。在仿真数据上,该方法能够准确地恢复出预设的多层次地面真值结构,其性能显著优于基线方法。在真实数据上,例如小鼠下丘脑视前区的MERFISH(Multiplexed Error-Robust Fluorescence In Situ Hybridization,多重抗误差荧光原位杂交)数据和小鼠肝脏的Star空间转录组数据,HRCHY-CytoCommunity成功识别出了从细胞邻域到更大组织功能区(如肝脏门静脉区、中央静脉区)的清晰层次结构。性能定量比较显示,在识别不同尺度结构的多项指标上,HRCHY-CytoCommunity均领先于其他方法,证明了其有效性和通用性。
揭示乳腺癌肿瘤微环境的层次空间组织
将HRCHY-CytoCommunity应用于一个包含多重免疫荧光(Multiplexed Immunofluorescence, mIF)成像数据的乳腺癌队列(该队列具有临床预后信息),研究得以深入解析肿瘤微环境(Tumor Microenvironment, TME)的复杂空间架构。分析不仅识别出了肿瘤细胞区、免疫细胞区、间质区等粗粒度分区,还在这些分区内部进一步解析出更精细的细胞邻域,例如不同亚型的T细胞与肿瘤细胞、髓系细胞的特定空间聚集模式。这些多层次的空间模式共同描绘了乳腺癌TME的高度异质性和组织化特征。
基于空间层次的预后患者分型
利用从乳腺癌样本中推断出的多层次空间社区特征,研究人员进行了生存分析。他们发现,基于特定层次(尤其是中间尺度)的空间社区组成,可以将患者分为具有显著不同生存结局的亚型。这种基于HRCHY-CytoCommunity衍生特征的分型,其预后预测能力独立于传统的临床病理因素。这表明,肿瘤的空间组织层次本身蕴含着重要的生物学和临床信息。
识别与生存相关的空间模式
通过进一步分析,研究确定了与患者良好或不良预后显著相关的具体空间模式。例如,在粗粒度的“免疫富集”分区内,如果特定精细结构的T细胞邻域与肿瘤细胞邻域呈现紧密的嵌套和交互空间关系,则该模式与更长的患者生存期相关。反之,某些以髓系抑制细胞为主的邻域空间分布模式则与较差的预后相关。这些发现为理解肿瘤免疫微环境的功能空间单元及其临床意义提供了新的见解。
综上所述,本研究的结论是,组织在空间上具有内在的、多层次的结构化特性。研究人员成功开发的HRCHY-CytoCommunity框架,为直接从细胞类型空间图谱中系统性地解析这种层次化组织提供了一种强大、通用且可扩展的计算工具。该框架通过集成可微分图池化、自适应优化和特定的正则化策略,首次实现了在单一端到端模型中同时、无监督地推断出跨多个尺度且保持完全嵌套关系的稳健组织结构。在多个数据集上的验证表明其性能优越。更重要的是,将其应用于乳腺癌队列研究,不仅实现了基于空间组织层次的患者预后分层,还揭示了与生存结局密切相关的特异性空间构型,这为将空间组学数据转化为具有临床价值的生物标志物开辟了新途径。因此,HRCHY-CytoCommunity代表了一项重要进展,它架起了一座从单细胞分辨率到多细胞模块,再到完整组织功能理解的桥梁,对于发育生物学、肿瘤学及基础组织学研究均具有广泛意义。