
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于图嵌入迁移学习的空间转录组联合细胞分割与注释方法Bering
【字体: 大 中 小 】 时间:2025年07月19日 来源:Nature Communications 14.7
编辑推荐:
空间转录组技术面临细胞分割与注释的挑战,传统方法依赖染色图像导致信息丢失。Kang Jin等开发了图深度学习模型Bering,利用转录共定位关系实现噪声感知的细胞分割与分子注释,在多种技术和组织中表现出优越性能,并通过迁移学习提升新数据分割精度,为空间组学领域提供了高效工具。
空间转录组技术的快速发展为解析组织微环境提供了前所未有的分子分辨率,但如何准确划分细胞边界并注释其类型仍是制约下游分析的瓶颈。传统方法如Watershed和Cellpose过度依赖细胞核染色图像,导致30-70%的转录信息丢失;而统计模型如Baysor难以捕捉高维空间中的基因共定位模式。这一挑战在肿瘤等致密组织中尤为突出——细胞间隙模糊、亚细胞区室复杂,亟需创新算法突破。
针对这一难题,哈佛医学院(Harvard Medical School)的研究团队开发了Bering模型。这项发表于《Nature Communications》的研究,通过图卷积网络(GCN)整合转录共定位关系、距离核函数和多模态图像特征,将细胞分割转化为边缘预测任务,实现了2D/3D空间转录数据的联合分割与注释。其创新性在于:首次将亚细胞转录模式作为分割依据,通过自蒸馏迁移学习实现跨平台应用,为空间组学建立了可扩展的分析框架。
关键技术包括:(1)构建邻域基因组分(NGC)作为图节点特征;(2)采用可训练径向基函数(RBF)核建模转录空间距离;(3)结合CNN提取染色图像特征;(4)基于Leiden聚类实现无监督细胞分割;(5)通过迁移学习将预训练模型应用于新数据集。实验涵盖6种技术平台(MERFISH/Xenium/CosMx等)和8种组织类型(包括100μm厚脑组织)。
空间转录组数据编码分割所需的亚细胞分布信息
分析非小细胞肺癌(NSCLC)CosMx数据发现,核基因(如MALAT1)与胞质基因(如DUSP5)呈现显著空间分层。通过UMAP降维证实,不同亚细胞区室的NGC具有独特分布模式,这为基于转录共定位的分割提供了生物学依据。
Bering模型架构
模型采用双任务设计:(1)节点分类任务通过GCN学习NGC特征,区分背景噪声与真实信号;(2)边缘预测任务整合三种表征——距离核函数生成的边嵌入、CNN提取的图像特征、以及节点分类模型迁移的亚细胞模式特征。在NSCLC数据中,加入图像特征使分割AMI评分提升0.15-0.3。
噪声与细胞类型预测验证
在MERFISH皮层数据中,Bering预测的背景噪声与真实信号距离分布差异(p=0.018)优于原研究。相比TACCO方法,其在导管原位癌(DCIS)数据中准确区分增殖性肿瘤细胞,分类准确率提升30-40%,召回率提高15-35%。
跨平台分割性能
在六组基准测试中,Bering平均AMI得分比Watershed/Cellpose高0.1-0.5。虽与Baysor在部分数据相当,但在胚胎seqFISH中优势达0.5。关键的是,Bering分割的细胞保留更多转录本(增加20-70%),且肿瘤/非肿瘤细胞相关系数更低,表明更纯净的细胞分群。
预训练模型通用性
将NSCLC预训练模型迁移至DCIS数据时,初始仅40%转录本被标注。通过两轮自蒸馏,标注比例升至80%,成功识别3000+个细胞,清晰展现免疫细胞-肿瘤细胞共定位模式。但该策略在细胞组成差异大的组织中(如皮层→回肠)效果有限。
这项研究通过图神经网络将亚细胞转录模式转化为可计算特征,突破了传统分割方法的信息损失瓶颈。其创新价值体现在三方面:(1)首次实现不依赖染色图像的纯转录本分割;(2)建立跨组织/技术的迁移学习框架;(3)为空间组学预训练模型开发奠定基础。局限性在于对低质量数据(如稀疏转录本)的适应性有待提升,且计算效率需优化。随着万基因级空间技术(如SeqFISH+)的普及,Bering的模块化设计为构建空间组学基础模型提供了关键技术路径。
生物通微信公众号
知名企业招聘