基于条件扩散模型与BiLSTM-XCA Transformer的空间转录组数据插补新方法SpaLSTF

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《PLOS Computational Biology》：SpaLSTF: Diffusion-based generative model with BiLSTM and XCA-Transformer for spatial transcriptomics imputation

【字体：大中小】 时间：2026年02月12日 来源：PLOS Computational Biology 3.6

编辑推荐：

　　本文提出SpaLSTF模型，创新性地将条件扩散模型与双向长短期记忆网络（BiLSTM）、交叉协方差注意力Transformer（XCA-Transformer）相结合，通过双马尔可夫过程捕获基因表达关系，有效解决了空间转录组（ST）数据稀疏性问题。实验表明，该方法在12个跨平台数据集上显著提升基因插补精度并保持细胞拓扑结构，为空间转录组学研究提供了新工具。

引言

空间转录组学（Spatial Transcriptomics, ST）技术为组织样本中基因表达的空间分布模式分析提供了强大工具，但其应用受到稀疏基因检测和不完整表达覆盖的限制。基于参考单细胞RNA测序（scRNA-seq）的计算方法已被提出用于ST数据插补，但这些方法未能充分探索细胞间的潜在时间依赖性，且难以准确捕获隐藏的基因级调控机制。为克服这些局限性，本研究开发了SpaLSTF——一种利用scRNA-seq数据引导的条件扩散模型来增强ST基因表达的新方法。

方法设计

SpaLSTF通过双马尔可夫过程捕获基因表达关系：一个过程逐步用噪声扰动scRNA-seq数据，另一个过程对其进行去噪以重建原始分布。为有效建模细胞状态间的上下文依赖关系，采用双向长短期记忆网络（BiLSTM）捕获空间连续性。此外，设计了一种Transformer内的交叉协方差注意力机制（XCA-Transformer），直接计算基因表达丰度间的注意力系数，精准预测每步添加的噪声。在损失函数中引入变分下界（VLB）目标，并结合均方误差（MSE）损失与Kullback-Leibler（KL）散度作为正则化项，确保生成噪声遵循目标分布。

消融实验

通过去除BiLSTM模块（w/o BiLSTM）和替换XCA机制（w/o XCA）的对照实验表明，移除任一组件均导致SPCC（斯皮尔曼等级相关系数）和ARI（调整兰德指数）显著下降。仅保留扩散骨架的变体（Diffusion+BiLSTM only和Diffusion+XCA only）性能进一步降低，证实KL正则化对训练稳定性的关键作用。完整模型在12个数据集上均取得最优结果，验证了各模块的协同效应。

细胞拓扑结构保持性能

在无细胞类型标签的五折交叉验证中，SpaLSTF在ARI、AMI（调整互信息）、NMI（标准化互信息）和Homo（同质性）指标上均优于7种对比方法（Tangram、gimVI、SpaGE、stPlus、uniPort、SpatialScope、stDiff）。例如在osmFISH数据集中，其ARI值（0.251）较次优方法stPlus提升24.3%，证明其能更好保持细胞邻域关系。

基因级插补性能

基于SPCC、SSIM（结构相似性指数）、RMSE（均方根误差）和JS（Jensen-Shannon散度）的评估显示，SpaLSTF在MERFISH、seqFISH等数据集上均最接近真实ST数据。在seqFISH数据中，其中位SPCC（0.134）较次优的stDiff提升24%，且同时保持最高的细胞拓扑一致性。

数据对齐可视化

UMAP降维显示，扩散模型方法（SpaLSTF和stDiff）的插补结果（橙色）与真实ST数据（绿色）分布高度重叠，而基于细胞相似性的方法（如Tangram、SpaGE）结果更接近scRNA-seq数据分布，表明SpaLSTF能有效消除批次效应。

空间模式重建能力

在果蝇胚胎组织数据集（Dataset5_FISH）中，SpaLSTF对sna、trn等基因的横向、纵向空间模式重建精度显著优于其他方法。例如对复杂表达的tkv基因，其预测结果能清晰还原左上角高表达区域轮廓，而其他方法出现模糊或过度估计。

综合性能评估

通过聚合AS（精度评分）指标对12个数据集的8项指标进行综合排名，SpaLSTF在聚类指标（图7A）和基因相似性指标（图7B）上均居首位，且总体AS值（图7C）最优，展现其平衡且稳健的性能。

生物通路一致性分析

在seqFISH+数据集中，通过细胞簇间差异表达基因的GO富集分析发现，SpaLSTF插补数据与真实数据的通路重叠率和富集分数相关性均最高，证明其能保持具有生物学意义的功能信号。

讨论与展望

SpaLSTF首次将条件扩散模型与BiLSTM、XCA-Transformer及KL散度正则化结合，显著提升了ST数据插补精度。尽管XCA模块在基因数增多时可能增加内存消耗，但在常规GPU资源下仍可管理。未来整合组织学图像等多模态数据，有望进一步提升在低基因覆盖率或高噪声场景下的插补鲁棒性。

材料与方法

实验涵盖12对ST与scRNA-seq数据集，覆盖多种实验协议和组织类型。扩散过程训练周期设为1200，隐藏层尺寸根据基因数动态调整（512-1024）。BiLSTM隐藏层设为128，XCA-Transformer包含6个多头注意力层。优化器采用AdamW，学习率1e-4，所有实验在NVIDIA RTX 4090 GPU上完成。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号