-
生物通官微
陪你抓住生命科技
跳动的脉搏
基因空间整合:基于深度学习和批次效应消除的空间转录组学分析新方法
《Bioinformatics》:Gene Spatial Integration: enhancing spatial transcriptomics analysis via deep learning and batch effect mitigation
【字体: 大 中 小 】 时间:2025年06月16日 来源:Bioinformatics 4.4
编辑推荐:
本研究针对空间转录组学(ST)分析中基因空间分布信息利用不足及批次效应干扰的关键问题,开发了基因空间整合(GSI)深度学习管道。通过自编码器提取基因空间分布嵌入特征,结合BEER批次效应消除技术,在人类DLPFC数据集上使Seurat聚类ARI评分从0.225提升至0.405,与GraphST联合应用时ARI进一步提升至0.795。该研究为多样本ST数据整合分析提供了新范式,发表于《Bioinformatics》。
在生命科学领域,空间转录组学(ST)正掀起一场技术革命。这项突破性技术能同时捕获基因表达信息和细胞空间坐标,为理解组织微环境提供了全新视角。然而,现有分析方法大多仅关注细胞邻近关系,忽视了基因空间分布这一重要维度。更棘手的是,不同来源样本存在的批次效应严重干扰数据分析——就像试图拼合来自不同地图碎片时出现的错位。这些挑战使得科学家们难以构建完整的空间基因表达图谱。
针对这些瓶颈,韩国釜山国立大学与斯坦福大学的研究团队在《Bioinformatics》发表了创新性研究。他们开发的基因空间整合(GSI)管道,首次将基因分布模式转化为可计算的图像特征,通过深度学习与批次效应消除技术的协同作用,实现了多样本ST数据的无缝整合。这项研究不仅为空间组学数据分析开辟了新路径,更将单细胞分析工具的效能提升至新高度。
研究团队运用三大关键技术:1) 将10x Visium平台获取的人类DLPFC(背外侧前额叶皮层)样本坐标转换为220×280像素的基因分布图像;2) 采用PyTorch构建的自编码器提取空间嵌入特征,与基因表达矩阵拼接形成增强特征;3) 使用BEER算法(R语言包)消除多样本整合产生的批次效应。实验选取151507、151672、151673等样本构建基准数据集,通过ARI(调整兰德指数)等指标量化评估性能。
GSI在样本整合与批次效应消除中的表现
UMAP可视化显示,经GSI处理后原本分离的样本批次实现良好混合。定量分析表明,仅使用基因表达特征时批次效应隐蔽但分析效能低下,而单纯添加空间特征会导致严重批次分离。GSI通过联合优化使样本151673的Seurat聚类ARI从0.225跃升至0.405,显著优于stLearn(0.308)和SpaGCN(0.383)。
定量评估验证分析优势
在包含3个捐赠者样本的整合数据集中,GSI展现出全面优势:"Spatial+BEER"组合使所有样本ARI显著提升,其中151673近乎翻倍。组织切片可视化证实,经GSI处理后原本模糊的皮层分层(如L3和L5)变得界限分明。值得注意的是,白质(WM)等缺乏特征基因分布的区域改善有限,反证了基因空间模式的关键作用。
作为增强管道的协同效应
与当前最先进的GraphST图神经网络联用时,GSI产生惊人协同效应:在样本151672上使ARI从0.614飙升至0.795,创下该数据集已知最佳记录。scib工具包评估显示,GSI在NMI(标准化互信息)、cLISI(细胞局部逆 Simpson 指数)等生物学信号指标上全面提升,虽批次混合指标略有降低,但整体证实了其增强生物学发现的卓越能力。
这项研究开创性地证明,基因空间分布特征是可计算的生物学信号金矿。通过将图像处理技术与转录组学分析深度融合,GSI不仅解决了多样本整合的批次效应难题,更揭示了传统方法难以捕捉的组织空间编码规律。其与Seurat等主流工具的兼容性,使得这一突破能快速应用于癌症、阿尔茨海默病等重大疾病研究。随着空间组学技术向单细胞分辨率迈进,这种多维特征整合策略将为解密生命空间的分子密码提供关键钥匙。正如研究者强调的,当分析工具能够像细胞感受环境那样理解空间信息时,我们对复杂生物系统的认知将发生质的飞跃。