
-
生物通官微
陪你抓住生命科技
跳动的脉搏
深度学习算法STaCker:基于图像配准的空间转录组数据通用坐标框架构建
【字体: 大 中 小 】 时间:2025年05月25日 来源:Scientific Reports 3.8
编辑推荐:
空间转录组技术因切片变形和位移差异导致数据整合困难,Regeneron团队开发了深度学习算法STaCker,通过整合组织图像与基因表达数据生成抗噪声的复合图像表征,利用合成数据训练实现弹性配准。该算法在多种基准测试中显著提升切片空间一致性,支持跨平台数据整合,为组织微环境三维重构提供了高效计算工具。
论文解读
空间转录组技术(Spatial Transcriptomics)能够以单细胞分辨率绘制组织样本中的基因表达图谱,为解析组织结构和功能提供了革命性工具。然而,这项技术面临一个关键挑战:由于组织切片的物理变形和实验批次差异,多张切片之间缺乏统一的坐标框架(Common Coordinate Framework, CCF),导致数据整合困难、分析准确性下降。现有方法如PASTE和GPSA依赖基因表达相似性进行对齐,但单细胞转录组数据的高噪声和批次效应严重限制了其可靠性。如何实现高精度、自动化的空间坐标统一,成为领域内亟待解决的瓶颈问题。
针对这一挑战,Regeneron Pharmaceuticals的研究团队开发了名为STaCker(Spatial Transcriptomics Common coordinate builder)的深度学习算法。该研究创新性地将空间转录组数据对齐问题转化为图像配准任务,通过整合组织形态学图像与基因表达衍生的轮廓图,构建抗噪声的复合输入。研究团队采用合成数据训练策略克服了真实数据稀缺的局限,利用U-Net架构实现弹性变形配准,最终在多个基准数据集上验证了其优越性能。相关成果发表于《Scientific Reports》,为空间组学数据的标准化分析提供了重要工具。
关键技术方法
研究主要采用四项核心技术:(1)组织图像预处理(Reinhard颜色归一化、背景掩膜)与基因表达数据整合(SCTransform归一化、Leiden聚类生成轮廓图);(2)基于Simplex噪声的合成数据生成策略,模拟组织变形并训练模型;(3)U-Net架构的弹性配准网络,以Dice分数和正则化项构建损失函数;(4)多模态评估体系(NCC、MSE、SCS、MPARI等指标),涵盖数字变形切片、真实生物重复和跨平台数据。
研究结果
合成数据训练实现精准图像配准
通过模拟不同振幅的Simplex噪声和人工变形,STaCker在归一化互相关系数(NCC)上显著优于传统工具ANTs和WSIreg(p<0.001)。对小鼠后脑H&E切片的测试显示,STaCker能消除ANTs产生的波浪状伪影,证明合成数据训练的模型可有效迁移至真实组织图像。
数字变形切片的高精度对齐
对Visium平台小鼠脑矢状切片施加梯度变形后,STaCker使均方误差(MSE)降低2.7-25倍,81%的高误差位点被正确归位至同类标签区域。相比之下,PASTE仅能在轻度变形时实现11%的MSE改善,而GPSA出现严重的细胞坐标聚集现象。
无参考模板的de novo对齐
在四组独立变形切片互对齐测试中,STaCker将平均成对MSE从0.103降至0.041,97%位点保持空间邻域关系。GPSA则导致99.6%位点邻域关系破坏,凸显STaCker在保守变形方面的优势。
真实样本的生物学验证
人脑前额叶皮层(DLPFC)六层结构的对齐中,STaCker的层间混杂指数(MPARI)达0.93,显著高于未对齐状态(0.56)。标志基因如AQP4(L1层)和PCP4(L5层)的空间自相关(Moran's I)提升最显著。在小鼠嗅球数据中,STaCker对颗粒细胞层标志基因Nrxn3的表达模式重构效果最佳,且对批次效应具有强鲁棒性。
原位杂交数据的扩展应用
针对MERFISH单细胞数据(25万细胞/切片),STaCker通过构建细胞类型"生态位"(niche)轮廓图实现高效配准,CA1区标志基因Htr1a的空间一致性评分(GCS)显著优于STalign。而PASTE和GPSA因计算复杂度限制,仅能处理10%子采样数据。
跨平台数据整合
Visium与Xenium平台的小鼠脑冠状切片整合测试显示,STaCker使344个共有基因的Moran's I中位数提升最显著(p≤6e-5 vs STalign),Prox1等基因在齿状回区域的表达定位准确性最高。
结论与展望
STaCker通过图像配准框架解决了空间转录组数据坐标碎片化难题,其创新性体现在:(1)复合图像表征融合形态与分子信息;(2)合成数据训练突破真实数据限制;(3)弹性配准兼顾全局结构与局部变形。该工具已成功应用于测序型和原位杂交型数据,支持百万级坐标的高效处理。未来通过引入多尺度训练和同源性估计,有望进一步拓展其在部分组织对齐和病理状态比较中的应用,推动空间组学从技术突破走向生物学发现。
生物通微信公众号
知名企业招聘