
-
生物通官微
陪你抓住生命科技
跳动的脉搏
可重复性报告:探讨自监督学习模型从单细胞转录组学到空间转录组学的适用性
《Nature Machine Intelligence》:Reusability report: Exploring the transferability of self-supervised learning models from single-cell to spatial transcriptomics
【字体: 大 中 小 】 时间:2025年08月22日 来源:Nature Machine Intelligence 23.9
编辑推荐:
自监督学习(SSL)在单细胞转录组学中的应用及迁移到空间转录组学的潜力被评估。通过对比随机遮盖、基因程序遮盖和Barlow Twins三种SSL模型,发现随机遮盖策略整体性能最佳。研究指出从零开始训练的空间数据模型在细胞类型预测上优于迁移模型,揭示了scRNA-seq与空间转录组学的领域差异。基因填补和数据稀疏性会显著降低SSL模型性能,而整合零样本随机遮盖嵌入可提升空间聚类准确性。这些发现为预训练模型在空间转录组学的应用提供了理论依据和实践指导。
自监督学习(SSL)已成为从大规模无标签数据集中学习有意义表示的强大方法,尤其是在单细胞基因组学领域。Richter等人评估了SSL在单细胞RNA测序(scRNA-seq)数据建模中的应用,证明了SSL模型的有效性。然而,这些预训练的SSL模型在空间转录组学领域的泛化能力尚未得到研究。本文评估了三种在scRNA-seq数据上预训练的SSL模型(随机掩码模型、基因程序掩码模型和Barlow Twins模型)在空间转录组学数据集中的性能,重点关注细胞类型预测和空间聚类。实验结果表明,在所有评估的SSL模型中,采用随机掩码策略的模型具有最佳的整体性能。此外,从头开始在空间转录组学数据上训练的模型在细胞类型预测方面的表现优于经过微调的SSL模型,这揭示了scRNA-seq数据与空间转录组学数据之间的领域差异,其根本原因仍是一个未解之谜。通过对多种插补方法和数据退化场景的进一步分析,我们发现基因插补会降低SSL模型在细胞类型预测方面的性能,且这种效应会随着数据稀疏性的增加而加剧。最后,将零样本随机掩码嵌入整合到选定的空间聚类方法中显著提高了其准确性。总体而言,我们的研究结果为SSL模型在空间转录组学领域的应用提供了宝贵的见解,并为研究人员利用预训练模型进行空间转录组学数据分析提供了实际指导。
生物通微信公众号
知名企业招聘