
-
生物通官微
陪你抓住生命科技
跳动的脉搏
空间转录组数据整合新方法spatialMNN:基于空间互近邻算法的高效跨样本空间域识别
【字体: 大 中 小 】 时间:2025年07月27日 来源:Bioinformatics 4.4
编辑推荐:
本研究针对空间转录组(SRT)数据整合中忽视空间信息的瓶颈问题,开发了spatialMNN算法。该方法创新性地将互近邻(MNN)算法与空间坐标信息结合,通过k近邻图构建、平滑边缘修剪和空间生态位锚定等步骤,实现了跨样本空间域的高效识别。在31个Visium样本的大规模数据集测试中,相比BASS等方法,spatialMNN在保持高准确度(ARI)的同时,内存消耗降低94%,运行时间缩短90%,并成功应用于阿尔茨海默病相关生态位发现。该成果为空间组学大数据分析提供了高效解决方案。
在生命科学研究领域,空间转录组技术(Spatially Resolved Transcriptomics, SRT)正掀起一场革命——它让我们首次能在保留组织空间位置的同时,测量每个微小区域的基因表达谱。然而,当科学家们试图整合多个样本的数据时,却遇到了棘手的问题:现有的单细胞RNA测序(scRNA-seq)批量校正方法会丢弃宝贵的空间坐标信息,而新兴的空间分析方法要么计算效率低下,要么难以处理大规模数据集。这就像拥有高精度卫星地图却无法拼接成完整大陆版图,严重阻碍了疾病机制研究和生物图谱构建。
针对这一挑战,加州大学圣地亚哥分校(University of California San Diego)生物信息学与系统生物学项目的研究团队开发了突破性算法spatialMNN。这项发表在《Bioinformatics》的研究,巧妙地将经典的互近邻(Mutual Nearest Neighbors, MNN)算法改造为空间感知版本,通过三步创新设计实现了跨样本空间域的高效识别:首先构建基于空间坐标的k近邻图,通过独创的平滑修剪算法消除噪声;然后将组织分割为数百个空间生态位作为锚点;最后在生态位间建立MNN关系网络进行聚类。这种方法不仅保留了空间信息,还将计算复杂度从O(n2)降至线性级别。
关键技术路线包含:1)基于GLM-PCA的降维处理避免稀疏数据失真;2)采用Pearson相关系数或共享近邻数(SNN)进行边缘权重计算;3)对31个Visium样本和181张MERFISH切片组成的超大规模数据集进行验证;4)使用调整兰德指数(ARI)和标准化互信息(NMI)量化聚类准确性;5)通过峰值内存监控函数评估计算效率。
研究结果部分揭示了spatialMNN的多维优势:
spatialMNN实现跨平台高效整合
在STARmap、Visium和MERFISH三种技术平台的数据测试中,spatialMNN展现出卓越的适应性。特别是在包含378,918个细胞的MERFISH数据集上,传统方法BASS因内存不足(>128GB)无法运行,而spatialMNN仅用2GB内存就在15分钟内完成分析。比较性评估显示,其ARI得分与最优方法相当,但运行时间缩短10倍以上。

疾病相关空间生态位发现
应用spatialMNN分析阿尔茨海默病(AD)小鼠模型数据时,算法成功捕捉到与β淀粉样蛋白(Aβ)斑块高度共定位的疾病相关生态位(Cluster 6)。该区域富集小胶质细胞、星形胶质细胞和少突胶质细胞,与已知病理机制高度吻合。差异表达分析进一步验证,该簇标记基因与斑块诱导基因(PIGs)存在显著重叠。

大规模图谱数据分析能力
在包含31个海马体样本的Visium数据集上,spatialMNN识别出13个空间域,其"神经元"、"神经纤维网"等广义分区与人工标注结果高度一致。主成分分析显示,这些域解释了比样本来源更大的转录组变异,证实了生物学一致性。
讨论部分强调,spatialMNN的创新性体现在三个维度:方法论上首次实现MNN算法的空间扩展;技术上通过分治策略将计算复杂度降至O(n);应用上既可发现疾病相关生态位,又能处理超大规模数据集。研究者特别指出,该方法识别的"空间域"实质是细胞类型组成的特定空间模式,这为理解组织微环境提供了新视角。随着空间组学数据爆发式增长,这种兼顾准确性与效率的算法,将为构建人类细胞图谱提供关键技术支持。开源实现(https://github.com/Pixel-Dream/spatialMNN)更确保了方法的可及性和可扩展性。
生物通微信公众号
知名企业招聘