
-
生物通官微
陪你抓住生命科技
跳动的脉搏
DECIPHER:跨尺度对比学习框架解析大规模异质性空间组学数据中细胞内外环境互作机制
【字体: 大 中 小 】 时间:2025年08月28日 来源:Nature Communications 15.7
编辑推荐:
本研究针对当前空间组学建模中细胞分子特征与空间背景信息相互混淆的难题,开发了基于Transformer架构的DECIPHER模型。该模型通过创新性跨尺度对比学习策略,首次实现细胞内(分子身份)与细胞外(空间环境)表征的解耦,在Xenium乳腺癌和MERFISH脑数据集上展示出超越STAGATE、Banksy等方法的性能(空间NMI提升15.7%)。其突破性在于:1)支持百万级细胞图谱分析;2)成功解析B细胞成熟过程中CXCL12_CXCR4/CXCL13_CXCR5等关键配体-受体对的空间调控规律;3)在313基因低覆盖数据中精准定位PTGDS等肿瘤浸润淋巴细胞标志基因。该成果为理解细胞-微环境互作提供了全新分析范式。
在生命科学领域,细胞的功能不仅取决于其内在的分子特征,更受到三维空间微环境的精密调控。随着Xenium、MERFISH等空间组学技术的突破,科学家们已能同时捕获细胞的基因表达谱和空间坐标信息。然而,现有计算方法如STAGATE、Banksy等将这两种信息压缩为单一嵌入向量,导致关键的细胞内外互作机制被掩盖。更严峻的是,当面对百万级细胞的时空图谱时,传统图神经网络(GNN)常因内存爆炸而失效。这些瓶颈严重阻碍了人们对发育、免疫应答等过程中细胞空间行为规律的解析。
为解决这一挑战,Chen-Rui Xia、Zhi-Jie Cao和Ge Gao团队在《Nature Communications》发表的研究中,提出了名为DECIPHER的革命性框架。该研究创新性地采用双通道编码策略:通过多层感知机(MLP)提取分子身份嵌入,同时利用空间Transformer将邻域细胞视为"词汇单元"生成环境嵌入。两种表征通过NT-Xent对比损失函数协同优化,其中分子视图采用随机丢弃(dropout率0.6)生成正样本对,空间视图则通过邻域细胞的双重增强构建对比关系。研究团队在10x PBMC模拟数据集、164,079细胞的Xenium乳腺癌数据集和378,918细胞的MERFISH脑数据集上进行了系统验证。

DECIPHER实现解耦嵌入学习
在空间区域识别任务中,DECIPHER的空间嵌入在Xenium数据集的ARI达到0.87,较第二名STAGATE提高21%。分子嵌入同样保持高区分度,B细胞与T细胞的转录组NMI达0.92。这种解耦设计有效避免了传统方法(如scNiche)因信息混合导致的分辨率下降问题。值得注意的是,当处理8.7M细胞的人类泛癌图谱时,DECIPHER仅需8块A100显卡即完成批次校正,而STAGATE在200,000细胞子集上就出现内存溢出。
定位关键互作分子
在淋巴结节生发中心研究中,DECIPHER独创的Gumbel-sigmoid基因选择模型成功识别出调控B细胞空间分布的CXCL12_CXCR4/CXCL13_CXCR5对(图3f)。这与传统CCC(Cell-Cell Communication)工具形成鲜明对比:NicheNet完全遗漏该信号,而基于差异表达的CellChatV2仅检测到CXCL12_CXCR4。更令人振奋的是,在仅覆盖313个基因的乳腺癌数据中,模型准确锁定PTGDS(前列腺素D2合成酶)为淋巴细胞浸润的关键介质,该发现与独立发表的IMC研究高度吻合。

三维图谱解析
在151层连续切片的3.5M细胞小鼠脑图谱中,DECIPHER的3D坐标处理使空间嵌入与Allen脑区注释的匹配度(R2=0.89)显著优于2D处理(R2=0.52)。特别在GABA能神经元中观察到高度一致的分子-空间关联(R2>0.7),而血管细胞则呈现显著异质性(R2<0.3),暗示后者更强的环境适应性。
这项研究开创性地证明:1)细胞内外特征的解耦建模能显著提升空间组学解析精度;2)Transformer架构突破传统GNN的算力瓶颈;3)定位分子-空间关联的新范式为肿瘤免疫、神经发育等研究提供全新工具。作者指出,随着空间转录组覆盖度的提升,DECIPHER有望发展为支持全转录组分析的预训练基础模型。当前局限在于数据增强仅采用随机丢弃,未来整合更多元化的增强策略可能进一步提升性能。该框架已开源(https://github.com/gao-lab/DECIPHER),其设计理念对多模态生物数据建模具有普适启示。