
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于自蒸馏对比学习的空间转录组学生成模型:实现跨癌症组织学-基因表达预测
【字体: 大 中 小 】 时间:2025年07月07日 来源:Briefings in Bioinformatics 6.8
编辑推荐:
针对空间转录组学(SRT)中组织学图像与基因表达数据噪声大、相关性弱的问题,中山大学等团队提出Magic模型。该模型通过动量蒸馏对比学习生成伪目标增强模态对齐,结合Transformer解码器预测300个高表达基因,在乳腺癌数据上实现组织学-基因表达对齐准确率提升10%(优于TRIPLEX等),并通过零样本学习成功预测结直肠癌和TCGA样本的基因表达,揭示了患者间差异(如S100P基因在乳腺癌IV期与正常组织的差异表达)。研究为肿瘤异质性分析提供了新工具。
背景与挑战
肿瘤组织的空间异质性是癌症研究的核心难题。传统方法(如免疫组化、RNA测序)难以同时获取基因表达的空间分布信息,而空间转录组学(Spatially Resolved Transcriptomics, SRT)虽能整合组织学图像(H&E染色)与基因表达数据,却面临两大瓶颈:一是技术噪声和批次效应导致模态间关联弱化;二是现有预测模型(如HisToGene、BLEEP)对跨组织泛化能力不足。例如,TCGN等方法依赖图结构建模局部邻域关系,限制了其在无空间位置数据(如TCGA全切片图像)的应用。
研究团队与方法
中山大学、东华大学等机构的研究人员开发了Magic模型,其创新性体现在三方面:
研究结果
1. Magic实现高精度组织学-基因表达对齐
在5个独立乳腺癌验证切片(11,026个点)上,Magic对齐准确率(以余弦相似度匹配相邻5个点)较次优模型TRIPLEX提升10%(图2B)。消融实验证实:

2. 基因表达预测优于现有方法
Magic在乳腺癌验证集上的点水平皮尔逊相关系数(PCC)达0.75,较TRIPLEX提高0.1(图3A)。关键基因(如线粒体相关基因NDUFA4、COX6C)的预测空间分布与真实数据高度一致(图3D),且15个随机基因的PCC稳定性最优(图3E)。

3. 跨癌症零样本预测突破
未经微调的Magic在结直肠癌SRT数据中:

4. 临床样本分析揭示生物学意义
在TCGA乳腺癌样本(含正常组和IV期组)中:

结论与意义
Magic通过自蒸馏对比学习与动量伪目标生成,首次实现了跨癌症的组织学-基因表达高精度对齐与生成,其关键突破在于:
生物通微信公众号
知名企业招聘