基于双掩码对比学习的超图基础模型在全切片图像分析中的创新应用

【字体: 时间:2025年06月16日 来源:Pattern Recognition 7.5

编辑推荐:

  【编辑推荐】针对全切片图像(WSI)分析中局部组织特征与全局区域依赖关系难以整合的问题,研究人员提出双掩码对比学习超图基础模型(DMCL-HFM)。通过节点-超边双重掩码策略和对比学习框架,该模型在TCGA多癌种数据集上实现88.87%的分类准确率,显著优于现有图学习方法,为计算病理学提供了可迁移的预训练范式。

  

在数字病理学快速发展的今天,全切片图像(Whole Slide Images, WSIs)作为癌症诊断的"金标准",其高达数十亿像素的分辨率给计算机辅助诊断(CAD)带来巨大挑战。传统多实例学习(MIL)方法虽能处理WSI的高分辨率特性,却忽视了组织切片中至关重要的空间上下文关系。尽管图卷积网络(GCN)和超图方法能建模补片(patch)间关系,但现有模型存在两大瓶颈:一是依赖标注数据导致跨癌种泛化能力不足,二是难以同时捕捉局部组织学特征与全局区域互作。这些局限严重制约了计算病理学模型的临床应用价值。

针对这一难题,中国国家自然科学基金支持的研究团队在《Pattern Recognition》发表创新成果,提出双掩码对比学习超图基础模型(Dual-Masked Contrastive Learning based Hypergraph Foundation Model, DMCL-HFM)。该研究通过三个关键技术突破:首先设计节点-超边双重随机掩码策略,分别生成两个增强超图并重建掩码特征以学习局部关系;其次构建对比学习框架,将同源增强超图作为正样本对强化全局依赖建模;最后引入最大值掩码(max-mask)机制防止模型对主导特征的过拟合。研究团队在TCGA六大癌症数据集(包括TCGA-BRCA和TCGA-NSCLC等)上验证,DMCL-HFM在癌症亚型分类任务中平均准确率达88.87%,较现有最优方法提升1.2%,生存预测C-index提高0.15,首次实现超图模型在WSI分析中的跨任务、跨癌种知识迁移。

主要技术方法
研究采用TCGA提供的六种癌症WSI数据集进行预训练和验证。核心技术包括:1) 节点-超边双掩码策略,随机遮蔽部分节点和超边特征生成增强视图;2) 基于InfoNCE损失的对比学习框架,最小化同源增强超图间距;3) 最大值掩码正则化,抑制主导特征对模型的影响;4) 超图编码器采用多层感知机架构,通过特征重建损失优化参数。

研究结果
Datasets
使用TCGA-BRCA(乳腺癌)、TCGA-NSCLC(非小细胞肺癌)等六种癌症的WSI数据,涵盖不同组织类型和疾病阶段。

Results of Slide-Level Classification
在TCGA-BRCA数据集上达到95.07%的AUC值,较次优方法提升0.81%。TCGA-NSCLC数据集上准确率91.51%,证明模型对异质性癌症的强适应性。

Discussion
双重掩码机制使模型同时学习局部组织学模式(如癌细胞巢结构)和全局间质反应特征,max-mask策略将过拟合风险降低37%。

Conclusion
该研究开创性地将基础模型理念引入超图学习,通过自监督预训练突破标注数据限制。临床意义在于:1) 为罕见癌症诊断提供可迁移模型;2) 通过可视化重建特征增强病理决策可解释性;3) 模块化设计支持扩展到其他组织学分析任务。

这项由Xueying Zhou、Saisai Ding等学者完成的工作,不仅建立了首个WSI专用的超图基础模型,更通过创新的双掩码对比学习框架,解决了计算病理学中全局与局部特征协同建模的核心难题。其提出的预训练范式为医学图像分析提供了新思路,相关技术路线有望拓展至CT、MRI等多模态医疗数据融合领域。研究获得国家自然科学基金(62271298)和111计划(D20031)支持,相关代码已开源以促进领域发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号