
-
生物通官微
陪你抓住生命科技
跳动的脉搏
自监督深度学习驱动的无参考空间转录组解卷积方法SURF:突破组织微环境解析的技术瓶颈
【字体: 大 中 小 】 时间:2025年08月28日 来源:Advanced Science 14.1
编辑推荐:
本研究创新性地提出SURF(Self-supervised Reference-Free)算法,首次将自监督深度学习应用于空间转录组(ST)无参考解卷积领域。通过自动编码器架构建模基因非线性互作,结合对比学习整合位点空间关系,显著提升多细胞分辨率ST数据的细胞类型解析精度。在胰腺模拟数据、小鼠嗅球、人类前额叶皮层和结直肠癌肝转移等跨物种、多病理模型中验证了其优越性,尤其在缺乏匹配单细胞参考时性能超越参考依赖方法,为肿瘤微环境(EMT)等关键生物学机制研究提供了新工具。
空间转录组技术(ST)的革命性突破使得组织内基因表达的空间定位成为可能,但多细胞分辨率平台(如Visium、Slide-seq)的混合信号问题制约了单细胞水平解析。现有解卷积方法可分为依赖单细胞参考(如Cell2location、DestVI)和无参考方法(如STdeconvolve、BayesTME),前者受限于样本可及性和批次效应,后者则普遍忽视基因非线性互作和空间关联。
SURF的创新性体现在三方面:1)采用自监督深度学习框架,通过多层感知机(MLP)捕捉基因复杂互作;2)引入狄利克雷分布约束确保细胞类型比例(CTP)的生物学合理性;3)首创基于空间-表达双模态的对比学习策略,将相邻高相似性位点视为正样本,低相似性位点作为负样本,显著提升空间模式识别能力。
SURF的核心架构包含:
编码器:将基因表达向量s通过两层MLP(维度32→K)转换为K维CTP预测θ
解码器:通过线性层重构基因表达,权重矩阵βG×K即细胞类型转录谱
三重损失函数:重构损失(余弦相似度+KL散度)、分布调控损失(MMD距离)、生物对比损失(加权边际损失)
在人工胰腺数据集(层状/块状/背景模式)中,SURF的Pearson相关系数(PCC)达0.92±0.03,显著优于BayesTME(0.85±0.05)。当参考数据缺失关键细胞类型(如腺泡细胞)时,参考依赖方法性能下降40%,而SURF保持稳定。
小鼠嗅球:精确识别rostral migratory stream(RMS)区域,其标志基因Sox11在预测神经元前体细胞中的表达量较STdeconvolve提高2.3倍(P<0.01)。
精子发生数据集:在10μm分辨率Slide-seq数据中,正确区分圆形精子细胞(标志基因Prm1)和精母细胞,调整兰德指数(ARI)达0.71,优于CFS(0.63)。
人类前额叶皮层:清晰解析6层皮质结构,L5兴奋性神经元特异性表达PCP4基因,与已知标记一致。细胞通讯分析显示相邻皮层层间存在强信号交互。
结直肠癌肝转移:首次通过无参考方法识别EMT三态:
上皮态(X0):低EMT评分,富集紧密连接蛋白
间质态(X1):高EMT评分,激活TGF-β通路(NES=2.1, Padjust<0.001)
中间态(X2):兼具特征基因
空间互作分析发现肝星状细胞(X3)通过CLDN11-CLDN11配受体对促进EMT进程。
技术优势体现在:
摆脱单细胞参考依赖,解决临床样本匹配难题;
深度学习模型可扩展性强,支持整合H&E图像等多模态数据(未来方向);
计算效率优化,处理万级位点数据集仅需<4GB显存。
局限性包括当前未利用组织形态学信息,且在稀有细胞类型(<5%占比)识别上仍有提升空间。该工作为肿瘤微环境、神经发育等研究提供了通用分析框架,代码已开源。
(注:全文严格基于原文数据,未添加主观推断,专业术语均标注英文缩写,统计指标保留原文格式)
生物通微信公众号
知名企业招聘