《PLOS Computational Biology》:SpaLSTF: Diffusion-based generative model with BiLSTM and XCA-Transformer for spatial transcriptomics imputation
编辑推荐:
本文提出SpaLSTF模型,创新性地将条件扩散模型与双向长短期记忆网络(BiLSTM)、交叉协方差注意力Transformer(XCA-Transformer)相结合,通过双马尔可夫过程捕获基因表达关系,有效解决了空间转录组(ST)数据稀疏性问题。实验表明,该方法在12个跨平台数据集上显著提升基因插补精度并保持细胞拓扑结构,为空间转录组学研究提供了新工具。
引言
空间转录组学(Spatial Transcriptomics, ST)技术为组织样本中基因表达的空间分布模式分析提供了强大工具,但其应用受到稀疏基因检测和不完整表达覆盖的限制。基于参考单细胞RNA测序(scRNA-seq)的计算方法已被提出用于ST数据插补,但这些方法未能充分探索细胞间的潜在时间依赖性,且难以准确捕获隐藏的基因级调控机制。为克服这些局限性,本研究开发了SpaLSTF——一种利用scRNA-seq数据引导的条件扩散模型来增强ST基因表达的新方法。
方法设计
SpaLSTF通过双马尔可夫过程捕获基因表达关系:一个过程逐步用噪声扰动scRNA-seq数据,另一个过程对其进行去噪以重建原始分布。为有效建模细胞状态间的上下文依赖关系,采用双向长短期记忆网络(BiLSTM)捕获空间连续性。此外,设计了一种Transformer内的交叉协方差注意力机制(XCA-Transformer),直接计算基因表达丰度间的注意力系数,精准预测每步添加的噪声。在损失函数中引入变分下界(VLB)目标,并结合均方误差(MSE)损失与Kullback-Leibler(KL)散度作为正则化项,确保生成噪声遵循目标分布。
消融实验
通过去除BiLSTM模块(w/o BiLSTM)和替换XCA机制(w/o XCA)的对照实验表明,移除任一组件均导致SPCC(斯皮尔曼等级相关系数)和ARI(调整兰德指数)显著下降。仅保留扩散骨架的变体(Diffusion+BiLSTM only和Diffusion+XCA only)性能进一步降低,证实KL正则化对训练稳定性的关键作用。完整模型在12个数据集上均取得最优结果,验证了各模块的协同效应。
细胞拓扑结构保持性能
在无细胞类型标签的五折交叉验证中,SpaLSTF在ARI、AMI(调整互信息)、NMI(标准化互信息)和Homo(同质性)指标上均优于7种对比方法(Tangram、gimVI、SpaGE、stPlus、uniPort、SpatialScope、stDiff)。例如在osmFISH数据集中,其ARI值(0.251)较次优方法stPlus提升24.3%,证明其能更好保持细胞邻域关系。
基因级插补性能
基于SPCC、SSIM(结构相似性指数)、RMSE(均方根误差)和JS(Jensen-Shannon散度)的评估显示,SpaLSTF在MERFISH、seqFISH等数据集上均最接近真实ST数据。在seqFISH数据中,其中位SPCC(0.134)较次优的stDiff提升24%,且同时保持最高的细胞拓扑一致性。
数据对齐可视化
UMAP降维显示,扩散模型方法(SpaLSTF和stDiff)的插补结果(橙色)与真实ST数据(绿色)分布高度重叠,而基于细胞相似性的方法(如Tangram、SpaGE)结果更接近scRNA-seq数据分布,表明SpaLSTF能有效消除批次效应。
空间模式重建能力
在果蝇胚胎组织数据集(Dataset5_FISH)中,SpaLSTF对sna、trn等基因的横向、纵向空间模式重建精度显著优于其他方法。例如对复杂表达的tkv基因,其预测结果能清晰还原左上角高表达区域轮廓,而其他方法出现模糊或过度估计。
综合性能评估
通过聚合AS(精度评分)指标对12个数据集的8项指标进行综合排名,SpaLSTF在聚类指标(图7A)和基因相似性指标(图7B)上均居首位,且总体AS值(图7C)最优,展现其平衡且稳健的性能。
生物通路一致性分析
在seqFISH+数据集中,通过细胞簇间差异表达基因的GO富集分析发现,SpaLSTF插补数据与真实数据的通路重叠率和富集分数相关性均最高,证明其能保持具有生物学意义的功能信号。
讨论与展望
SpaLSTF首次将条件扩散模型与BiLSTM、XCA-Transformer及KL散度正则化结合,显著提升了ST数据插补精度。尽管XCA模块在基因数增多时可能增加内存消耗,但在常规GPU资源下仍可管理。未来整合组织学图像等多模态数据,有望进一步提升在低基因覆盖率或高噪声场景下的插补鲁棒性。
材料与方法
实验涵盖12对ST与scRNA-seq数据集,覆盖多种实验协议和组织类型。扩散过程训练周期设为1200,隐藏层尺寸根据基因数动态调整(512-1024)。BiLSTM隐藏层设为128,XCA-Transformer包含6个多头注意力层。优化器采用AdamW,学习率1e-4,所有实验在NVIDIA RTX 4090 GPU上完成。