自监督深度学习驱动的无参考空间转录组解卷积方法SURF:突破组织微环境解析的技术瓶颈

【字体: 时间:2025年08月28日 来源:Advanced Science 14.1

编辑推荐:

  本研究创新性地提出SURF(Self-supervised Reference-Free)算法,首次将自监督深度学习应用于空间转录组(ST)无参考解卷积领域。通过自动编码器架构建模基因非线性互作,结合对比学习整合位点空间关系,显著提升多细胞分辨率ST数据的细胞类型解析精度。在胰腺模拟数据、小鼠嗅球、人类前额叶皮层和结直肠癌肝转移等跨物种、多病理模型中验证了其优越性,尤其在缺乏匹配单细胞参考时性能超越参考依赖方法,为肿瘤微环境(EMT)等关键生物学机制研究提供了新工具。

  

1 引言

空间转录组技术(ST)的革命性突破使得组织内基因表达的空间定位成为可能,但多细胞分辨率平台(如Visium、Slide-seq)的混合信号问题制约了单细胞水平解析。现有解卷积方法可分为依赖单细胞参考(如Cell2location、DestVI)和无参考方法(如STdeconvolve、BayesTME),前者受限于样本可及性和批次效应,后者则普遍忽视基因非线性互作和空间关联。

SURF的创新性体现在三方面:1)采用自监督深度学习框架,通过多层感知机(MLP)捕捉基因复杂互作;2)引入狄利克雷分布约束确保细胞类型比例(CTP)的生物学合理性;3)首创基于空间-表达双模态的对比学习策略,将相邻高相似性位点视为正样本,低相似性位点作为负样本,显著提升空间模式识别能力。

2 结果

2.1 算法框架

SURF的核心架构包含:

  • 编码器:将基因表达向量s通过两层MLP(维度32→K)转换为K维CTP预测θ

  • 解码器:通过线性层重构基因表达,权重矩阵βG×K即细胞类型转录谱

  • 三重损失函数:重构损失(余弦相似度+KL散度)、分布调控损失(MMD距离)、生物对比损失(加权边际损失)

2.2 模拟数据验证

在人工胰腺数据集(层状/块状/背景模式)中,SURF的Pearson相关系数(PCC)达0.92±0.03,显著优于BayesTME(0.85±0.05)。当参考数据缺失关键细胞类型(如腺泡细胞)时,参考依赖方法性能下降40%,而SURF保持稳定。

2.3 真实组织解析

小鼠嗅球:精确识别rostral migratory stream(RMS)区域,其标志基因Sox11在预测神经元前体细胞中的表达量较STdeconvolve提高2.3倍(P<0.01)。

精子发生数据集:在10μm分辨率Slide-seq数据中,正确区分圆形精子细胞(标志基因Prm1)和精母细胞,调整兰德指数(ARI)达0.71,优于CFS(0.63)。

人类前额叶皮层:清晰解析6层皮质结构,L5兴奋性神经元特异性表达PCP4基因,与已知标记一致。细胞通讯分析显示相邻皮层层间存在强信号交互。

结直肠癌肝转移:首次通过无参考方法识别EMT三态:

  • 上皮态(X0):低EMT评分,富集紧密连接蛋白

  • 间质态(X1):高EMT评分,激活TGF-β通路(NES=2.1, Padjust<0.001)

  • 中间态(X2):兼具特征基因

    空间互作分析发现肝星状细胞(X3)通过CLDN11-CLDN11配受体对促进EMT进程。

3 讨论

技术优势体现在:

  1. 1.

    摆脱单细胞参考依赖,解决临床样本匹配难题;

  2. 2.

    深度学习模型可扩展性强,支持整合H&E图像等多模态数据(未来方向);

  3. 3.

    计算效率优化,处理万级位点数据集仅需<4GB显存。

局限性包括当前未利用组织形态学信息,且在稀有细胞类型(<5%占比)识别上仍有提升空间。该工作为肿瘤微环境、神经发育等研究提供了通用分析框架,代码已开源。

(注:全文严格基于原文数据,未添加主观推断,专业术语均标注英文缩写,统计指标保留原文格式)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号