基于自蒸馏对比学习的空间转录组学生成模型:实现跨癌症组织学-基因表达预测

【字体: 时间:2025年07月07日 来源:Briefings in Bioinformatics 6.8

编辑推荐:

  针对空间转录组学(SRT)中组织学图像与基因表达数据噪声大、相关性弱的问题,中山大学等团队提出Magic模型。该模型通过动量蒸馏对比学习生成伪目标增强模态对齐,结合Transformer解码器预测300个高表达基因,在乳腺癌数据上实现组织学-基因表达对齐准确率提升10%(优于TRIPLEX等),并通过零样本学习成功预测结直肠癌和TCGA样本的基因表达,揭示了患者间差异(如S100P基因在乳腺癌IV期与正常组织的差异表达)。研究为肿瘤异质性分析提供了新工具。

  

论文解读

背景与挑战
肿瘤组织的空间异质性是癌症研究的核心难题。传统方法(如免疫组化、RNA测序)难以同时获取基因表达的空间分布信息,而空间转录组学(Spatially Resolved Transcriptomics, SRT)虽能整合组织学图像(H&E染色)与基因表达数据,却面临两大瓶颈:一是技术噪声和批次效应导致模态间关联弱化;二是现有预测模型(如HisToGene、BLEEP)对跨组织泛化能力不足。例如,TCGN等方法依赖图结构建模局部邻域关系,限制了其在无空间位置数据(如TCGA全切片图像)的应用。

研究团队与方法
中山大学、东华大学等机构的研究人员开发了Magic模型,其创新性体现在三方面:

  1. 双模态对齐框架
    • 动量蒸馏机制:采用ViT-B/32编码组织学图像,scBERT(预训练自单细胞RNA-seq数据)编码基因表达,通过动量编码器(动量系数β=0.995)生成伪目标,指导对比学习降低噪声干扰(公式3)。
    • 细粒度匹配模块(IGM):引入跨注意力机制融合组织学特征(V)与基因表达特征(Eself),通过二元分类器区分正/负样本对(公式6-7)。
  2. 基因表达生成:冻结的组织学编码器提取特征,经Transformer解码器(多头注意力+FFN)预测300个高表达基因(公式8-9)。
  3. 数据处理:使用10x Genomics等来源的61例乳腺癌SRT切片(75,760训练点),组织图像统一裁剪为40×40像素,基因表达标准化为log(CPM+1)。

研究结果
1. Magic实现高精度组织学-基因表达对齐
在5个独立乳腺癌验证切片(11,026个点)上,Magic对齐准确率(以余弦相似度匹配相邻5个点)较次优模型TRIPLEX提升10%(图2B)。消融实验证实:

  • ViT-B/32比ViT-B/16对齐准确率高7.8%;
  • 动量蒸馏机制贡献10.8%增益;
  • IGM模块通过硬负样本提升判别力(图2C)。

2. 基因表达预测优于现有方法
Magic在乳腺癌验证集上的点水平皮尔逊相关系数(PCC)达0.75,较TRIPLEX提高0.1(图3A)。关键基因(如线粒体相关基因NDUFA4、COX6C)的预测空间分布与真实数据高度一致(图3D),且15个随机基因的PCC稳定性最优(图3E)。

3. 跨癌症零样本预测突破
未经微调的Magic在结直肠癌SRT数据中:

  • 对齐准确率仍优于BLEEP 11%(图4A);
  • 点水平PCC(0.45)显著高于TRIPLEX(0.05);
  • 成功预测PPIA、RPL9等保守基因的空间表达(图4D)。

4. 临床样本分析揭示生物学意义
在TCGA乳腺癌样本(含正常组和IV期组)中:

  • Magic预测基因表达的基因水平PCC(0.42)优于BLEEP(0.25);
  • 转移相关基因S100P的预测表达在IV期组显著上调(P<0.01),与真实数据趋势一致(图5C),而ViT-naive等模型无法捕捉此差异。

结论与意义
Magic通过自蒸馏对比学习动量伪目标生成,首次实现了跨癌症的组织学-基因表达高精度对齐与生成,其关键突破在于:

  1. 抗噪性设计:动量编码器稳定表示学习,IGM模块强化细粒度匹配;
  2. 零样本泛化能力:在结直肠癌和TCGA数据中验证了模型普适性;
  3. 临床价值:预测结果可识别患者间差异基因(如S100P),为无创肿瘤分级提供新思路。
    未来研究将扩展至单细胞分辨率空间转录组数据,并通过多组织训练进一步提升泛化能力。该模型发表于《Briefings in Bioinformatics》,代码开源(https://github.com/cat-moon/Magic)。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号