Spider:无需真实数据参考的空间转录组学模拟新框架
《Bioinformatics》:Spider: a flexible and unified framework for simulating spatial transcriptomics data
【字体:
大
中
小
】
时间:2025年11月16日
来源:Bioinformatics 5.4
编辑推荐:
本研究针对空间转录组学(ST)分析工具缺乏多样化"金标准"数据集的问题,开发了灵活统一的模拟框架Spider。该框架通过细胞类型比例和相邻细胞转移矩阵表征空间模式,无需真实ST数据参考即可生成更真实多样的模拟数据,支持空间域定制和病理图像整合。基准测试表明Spider在保持真实数据空间特征方面优于现有工具,为下游分析方法评估提供了可靠平台。
在生命科学领域,空间转录组学(ST)技术的出现彻底改变了我们理解细胞异质性的方式。与传统单细胞RNA测序(scRNA-seq)技术不同,ST能够同时获取基因表达谱和细胞位置信息,为研究复杂组织中基因表达的位置特异性提供了强大工具。然而,随着ST技术和分析方法的快速发展,研究人员面临着一个严峻挑战:"金标准"数据集的有限多样性和准确性严重阻碍了不断增长的ST分析工具的有效性和公平性评估。
现有ST模拟工具主要分为参考依赖型和参考自由型两大类。参考依赖型方法虽然能保证较高的上下文保真度,但其模拟结果受限于特定参考输入中捕获的生物变异性;而参考自由型方法虽然具有较高的灵活性,但在充分利用空间模式和数据依赖性方面存在明显不足。这两种方法都无法同时满足理想ST数据模拟器的四个关键标准:生物真实性、灵活性、可重复性和实用性。
为了解决这些问题,上海交通大学的研究团队开发了Spider(空间转录组数据模拟器),这是一个基于Python的灵活、可重复且实用的ST数据集模拟软件。Spider的核心创新在于使用细胞类型比例和相邻细胞间的转移矩阵来表征模拟数据的空间模式,而无需真实ST数据作为参考。
研究团队采用了三个关键技术方法:首先,将细胞类型分配问题构建为带有整数约束的二元优化问题;其次,开发了批模拟退火算法(BSA)来高效解决大规模模拟中的组合优化问题;最后,实现了多种空间邻域图构建方法(如k近邻图、Delaunay三角剖分等)来适应不同测序平台的数据特征。所有分析均使用公开的STARmap小鼠视觉皮层数据和胰腺导管腺癌(PDAC)数据作为参考数据集。
通过与四种参考自由型模拟器(RCTD、stereoscope、STRIDE和FICT)的系统比较,Spider在保持真实ST数据空间特征方面表现出显著优势。使用STARmap小鼠视觉皮层数据作为参考,Spider模拟的数据不仅准确再现了兴奋性神经元细胞在2/3、4和6层的空间聚类模式,而且在Ripley's L曲线分析中显示出与真实数据最高的一致性(平均余弦相似度0.999)。此外,在空间模式矩阵(转移矩阵、中心性评分矩阵和邻域富集矩阵)的差异评估中,Spider也 consistently exhibiting the lowest error between simulated and real data。
研究团队利用Spider模拟了五种不同空间模式的数据集(真实数据引导、吸引、排斥、分层和脑回模式),系统评估了空间域检测(聚类)和点解卷积两类下游分析方法。在空间聚类方面,BASS方法在细胞和点水平上都表现出较高的准确性,但不同重复间存在较大变异性;而在点解卷积分析中,RCTD在不同数据集间 consistently outperforms other methods,表现出较高的可重复性。这些结果与先前文献报道的结论一致,证明了Spider模拟数据的可靠性。
研究团队还展示了Spider在模拟肿瘤免疫微环境(TIME)方面的应用能力。通过设置适当的细胞类型比例和转移矩阵,Spider成功生成了三种典型的TIME模式:免疫冷肿瘤、混合肿瘤和区室化肿瘤。这些模拟数据随后被用于评估五种细胞-细胞通信(CCC)工具(CellChat、NicheNet、SingleCellSignaIR、SpaTalk和COMMOT)的性能,通过相似性指数(SI)和基于排名的相似性指数(RSI)评估不同工具间的一致性。
Spider框架的主要优势在于其过渡矩阵驱动的方法对空间维度具有天然的不可知性,自然支持多切片扩展。研究人员通过将3D ST模拟数据分解为连续的2D切片,验证了Spider在维度转换过程中有效保持空间模式的能力。
然而,该框架仍存在一些局限性:首先,Spider需要用户提供多个参数(如细胞类型比例和转移矩阵),这些参数可能并非对所有生物系统都容易获得;其次,当前版本主要关注细胞类型空间分布的模拟,尚未纳入生物系统中常见的时间动态性;此外,Spider的转移矩阵在组织区域间是空间不变的,因此无法捕获边界动力学或时空病理演化;最后,Spider尚未模拟亚细胞mRNA定位或单个细胞内的高密度点。
尽管存在这些限制,Spider作为空间生物学研究社区的一个重要工具,为空间转录组学分析方法的开发和评估提供了强大支持。其灵活的框架设计和优异的性能表现,使其能够生成多样化的空间模式,为全面算法评估提供了可靠平台。未来工作应专注于从真实数据中自动化参数估计,进一步优化模拟算法以提高可扩展性,以及使用更多样化的空间转录组数据集进行验证和基准测试。通过整合其他模态的空间信息(如成像、空间蛋白质组学和空间代谢组学),可以生成更全面、更真实的模拟空间转录组数据集。
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号