空间转录组细胞类型解卷积:计算方法、生物挑战与应用前景
《Big Data Mining and Analytics》:A Comprehensive Review of Cell-Type Deconvolution in Spatial Transcriptomic Data
【字体:
大
中
小
】
时间:2025年12月19日
来源:Big Data Mining and Analytics 6.2
编辑推荐:
本文系统综述了空间转录组(ST)数据中细胞类型解卷积的计算方法,针对当前缺乏单细胞分辨率的ST技术无法精确解析spot内细胞组成的问题,研究人员从数学模型、算法分类、性能评估等多维度分析了现有解卷积策略,提出了影响解convolution结果的关键因素,并展望了在发育生物学、肿瘤微环境等领域的应用前景,为空间转录组学研究提供了重要方法论指导。
当我们试图理解复杂生物组织的奥秘时,细胞在空间中的精确分布及其相互作用模式一直是科学家们探索的核心。传统的单细胞RNA测序(scRNA-seq)技术虽然能够详细刻画单个细胞的基因表达特征,却丢失了细胞在原始组织中的空间位置信息。而新兴的空间转录组学(Spatial Transcriptomics, ST)技术恰好填补了这一空白,它能够同时测量基因表达和空间位置信息,为理解组织结构和功能提供了全新视角。
然而,大多数测序型ST技术(如10x Genomics Visium、Slide-seq等)存在一个关键限制——它们无法达到真正的单细胞分辨率。每个检测点(spot)捕获的往往是多个细胞混合的基因表达信号,这些细胞可能是同质或异质类型的混合体。这就好比我们想通过一张模糊的卫星照片来识别地面上的每棵树木种类,挑战巨大。正是这种技术局限性催生了细胞类型解卷积(CELL-TYPE DECONVOLUTION)计算方法的发展,其核心目标是从混合的spot表达信号中推断出各细胞类型的比例组成。
在这篇发表于《Big Data Mining and Analytics》的综述文章中,王兰英、胡宇轩和高琳*团队对空间转录组数据中的细胞类型解卷积问题进行了全面梳理。研究人员首先从数学角度对解卷积问题进行了形式化描述:将ST基因表达矩阵(T)建模为细胞类型特异性基因表达矩阵(C)与细胞类型比例矩阵(P)的乘积,加上残差误差矩阵(E)。这种建模方式将生物学问题转化为可计算的数学优化问题,通过非负最小二乘(NNLS)等算法求解。
为了系统评估现有方法,研究者将解卷积方法分为参考数据依赖型(REFERENCE-BASED)和参考数据无关型(REFERENCE-FREE)两大类。参考数据依赖型方法进一步细分为基于回归模型、概率模型、深度学习模型和其他模型四种子类型。基于回归的方法如SPOTlight采用种子非负矩阵分解(NMF)和NNLS回归;SPATIALDWLS结合富集分析和阻尼加权最小二乘(DWLS)回归;CARD则引入空间自回归假设,利用相邻位置间的细胞类型组成相似性提高解卷积精度。概率模型方法如RCTD使用泊松-对数正态混合模型,CELL2LOCATION采用负二项分布和变分贝叶斯推断,能够同时考虑过度离散、基因特异性技术敏感性等多重变异来源。深度学习方法如DSTG基于图卷积网络(GCN),通过生成伪ST数据并构建图结构进行特征学习;CELLDART利用改进的对抗性领域自适应技术实现跨组织结构的细胞类型信息迁移。
参考数据无关型方法如STDECONVOLVE采用潜在狄利克雷分配(LDA)主题模型,仅依赖标记基因先验知识即可推断细胞类型组成,在缺乏理想参考数据时展现出独特优势。研究者特别指出,当存在高质量scRNA-SEQ参考数据时,基于参考的方法通常表现更优;但在现实场景中参考数据质量参差不齐,参考数据无关型方法的发展显著扩展了解卷积技术的适用性。
性能评估方面,研究分析了模拟数据和真实数据两种评估策略。模拟数据通过单细胞分辨率ST数据的网格划分或scRNA-SEQ数据的已知分布采样生成,提供金标准进行定量评估;真实数据则通过检查细胞类型空间分布与已知组织结构的吻合度等指标进行定性验证。现有基准研究表明,概率模型如RCTD和CELL2LOCATION在准确性、鲁棒性和可扩展性方面表现突出,而CARD、SPATIALDWLS等回归方法也取得不错效果。
研究人员重点分析了影响解卷积结果的四个关键因素:参考数据的可靠性取决于细胞类型注释准确性、各细胞类型的基因数量和组织中细胞类型覆盖度;细胞类型特异性基因的选择需要考虑生物学特异性、数据稀疏性和细胞类型异质性;数据预处理如标准化和转换策略对结果有显著影响,部分方法直接对原始计数建模效果更佳;批次效应校正通过基因特异性平台随机效应、位置特异性校正等技术减轻技术偏差。
组织异质性表现为细胞身份、基因表达模式、细胞类型组成和细胞间相互作用的区域变异,增加了scRNA-SEQ数据注释ST数据的复杂性。不同方法通过特定假设缓解此问题,如STDGCN、STRIDE假设ST和scRNA-SEQ数据间存在共享细胞类型,RCTD和STEREOSCOPE假设基因表达随机效应和平台偏差在细胞类型间共享。
密切相关的细胞类型(如T细胞亚群CD3+、CD4+和CD8+细胞,髓系细胞等)常出现基因表达谱重叠,导致参数估计不稳定。ADROIT和REDECONVE等方法通过引入正则化约束模型系数,减轻共线性影响。
解卷积结果显著增强了spot分辨率ST数据的下游分析能力:能够描绘细胞类型空间分布模式,识别空间限制性基因表达,推断细胞间相互作用,提升ST数据分辨率至单细胞水平,识别组织细胞邻域(TCNS),以及构建三维空间结构。在应用层面,该技术已广泛应用于组织发育与修复(如人类心脏、小鼠胚胎发育)、肿瘤微环境(乳腺癌、胰腺癌等肿瘤免疫细胞浸润模式)、疾病机制与临床治疗(免疫治疗反应预测)、神经生物学(阿尔茨海默病、脑肿瘤)等领域。
尽管成像型ST技术已实现单细胞或亚细胞分辨率,但在测序深度和商业可扩展性方面仍存在限制,使得解卷积在复杂组织(如肿瘤微环境)研究中继续保持基础性地位。未来发展方向包括:结合空间坐标和H&E染色组织学图像提高组织区域注释准确性;将spot数据解卷积至单细胞分辨率;将解卷积计算整合到多组学数据分析流程中;以及开发蛋白质组学数据解卷积新方向。这些进展将推动单细胞空间图谱重建,促进人类细胞图谱(HCA)、人类生物分子图谱计划(HUBMAP)等大型联盟项目发展,为精准医学应用奠定基础。
该研究得到国家自然科学基金(项目号62132015、62350087、U222037、62422211)资助,为空间转录组学研究提供了从基础概念到核心原理的深入指导,助力研究人员在空间分析中做出知情选择,推动相关领域研究进展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号