基于病理图像的自监督学习方法在透明细胞肾细胞癌生存预测中的应用

《Pattern Recognition》:Pathological Graph Self-Supervised Learning for Clear-Cell Renal Cell Carcinoma Survival Prediction

【字体: 时间:2025年10月10日 来源:Pattern Recognition 7.6

编辑推荐:

  提出病理图自监督学习(PGSL)框架,通过 masked link-prediction 预训练捕获肿瘤微环境语义和拓扑结构,结合加权邻接矩阵和图神经网络进行生存风险预测,在多个数据集上验证优于基线方法,展现鲁棒性和可解释性。

  
李五超|张燕|杨尚宗|张学涛|李品豪|王荣平
贵州大学医学院,贵阳市,550000,贵州,中国

摘要

全切片图像(WSIs)对于诊断透明细胞肾细胞癌(ccRCC)至关重要,但其复杂的组织拓扑结构和肿瘤微环境特征给传统分析方法带来了挑战。我们提出了一种基于病理图谱的自监督学习(PGSL)方法来预测ccRCC患者的生存情况。PGSL通过对超过1000张ccRCC WSI进行大规模图谱自监督预训练,使用遮盖链接预测任务来恢复局部拓扑结构和肿瘤微环境的语义,该方法通过随机遮盖节点并预测它们的连接性来实现这一点。在推理阶段,预训练模型生成一个加权邻接矩阵,为切片级别的计算提供基于拓扑的指导。这个学习到的图谱与初始的图像特征一起,通过图神经网络进行处理,以整合全局WSI上下文并生成患者级别的风险评分。我们在两个私有队列和公开的TCGA-KIRC数据集上评估了PGSL的方法,结果显示其在生存任务中始终优于多实例学习和图谱基线方法。其优势在于数据自适应的图谱构建方式,以及有效处理诱导出的拓扑结构。PGSL展示了强大的泛化能力,并产生了与预后病理学相一致的可解释性关注模式。这些结果突显了PGSL作为病理图谱分析和ccRCC生存分层的一种有效且可扩展框架的重要性。

引言

计算病理学近年来已成为一个关键的跨学科领域,显著推动了肿瘤诊断和预后评估的发展。病理图像,特别是全切片图像(WSIs),为临床医生提供了肿瘤组织的详细微观视图,揭示了肿瘤生长模式[1]、[2]、细胞异质性和肿瘤微环境等关键特征。对于肾细胞癌(RCC),尤其是最常见的透明细胞肾细胞癌(ccRCC)[3],这些图像提供了关于肿瘤分级、分期和生物学行为的重要信息,这对诊断和生存预测至关重要。然而,ccRCC的显著异质性给传统分析方法带来了巨大挑战,因为病理图像中嵌入的复杂拓扑结构和微环境特征难以通过依赖手动观察或半自动化图像处理的传统技术完全捕捉和量化。
现有的病理图像分析方法大致可以分为图像处理技术和基于机器学习的模型[4]、[5]。图像处理方法,如纹理分析和形态学特征提取,在提取低级视觉特征方面表现出色,但在捕捉高级拓扑信息或语义关系方面存在不足。机器学习模型,尤其是卷积神经网络[6]、[7],在图像分类和分割任务中取得了显著的成功[8]、[9]、[10]。然而,这些模型通常是为特定数据集或疾病量身定制的,限制了它们发现病理图像内部模式或在不同数据集之间泛化的能力。
病理自监督学习模型代表了一种创新的计算范式[11]、[12]、[13],利用大规模病理数据集的预训练来学习通用特征和模式,从而提升下游任务的性能。例如,像Prov-GigaPath[11]这样的模型通过在广泛的WSI数据集上进行预训练,取得了先进的结果。尽管如此,现有的病理自监督学习模型主要关注图像级别的特征学习,忽视了病理图像中固有的丰富拓扑结构和微环境特征。此外,这些模型往往缺乏针对特定疾病的优化,如ccRCC的优化,这限制了它们在需要精确生存预测的临床应用中的实用性。
为此,我们提出了一种用于ccRCC生存预测的病理图谱自监督学习(PGSL)框架。PGSL利用大规模图谱自监督和链接预测目标来恢复局部拓扑结构和肿瘤微环境语义。在预训练阶段,PGSL遮盖一部分节点并学习预测它们的连接性,从而挖掘组织结构中的规律性。在推理阶段,模型生成一个加权邻接矩阵,为切片级别的计算提供基于拓扑的指导。这个矩阵与初始的图像特征一起传递给图神经网络进行生存风险估计,有效地整合了全局WSI上下文以生成患者级别的预测。主要贡献如下:
  • 我们提出了一种病理图谱自监督学习框架,能够模拟WSIs中的复杂拓扑结构和微环境语义,在ccRCC生存预测中取得了显著提升。
  • 我们引入了一种推理流程,将学习到的加权邻接矩阵与图神经网络结合使用,以整合全局上下文信息,实现精确可靠的风险估计。
  • 我们在两个私有队列和公开的TCGA-KIRC数据集上评估了PGSL,结果表明其性能优于多个基线方法,并在ccRCC场景中展现了强大的鲁棒性和泛化能力。
  • 方法部分

    生存预测

    早期生存分析基于统计理论,传统上分为非参数、半参数和参数方法。非参数估计器,如Kaplan–Meier [14]和Nelson–Aalen [15]估计器,可以在不假设风险函数形式的情况下计算经验生存概率。Cox的比例风险模型代表了半参数方法[16],其部分似然公式衍生出了许多规范化变体。

    方法

    在本节中,我们首先概述了必要的背景知识,提供了关于生存预测和图神经网络的简洁而全面的初步介绍,以建立我们方法的共同符号体系。随后,我们依次介绍了所提出方法的两个关键部分,即通过遮盖链接预测目标自适应推断特定图谱拓扑的自监督边缘重构,以及用于生存计算的图计算。

    数据集

    我们在癌症基因组图谱(TCGA)[33]的KIRC数据集上评估了所提出的框架与对比基线的性能。为了更全面地展示每种方法的相对优势和局限性,我们还收集了来自合作医院的两个额外数据集[34],分别是贵州省人民医院(GPPH)和贵州医科大学附属医院(GMUH)。该研究获得了伦理委员会的批准。

    结论

    在本文中,我们提出了病理图谱自监督学习(PGSL),这是一种利用WSIs进行ccRCC患者生存预测的创新方法。PGSL利用大规模图谱自监督学习来捕捉病理图像中固有的复杂拓扑结构和微环境特征。我们创新的两阶段框架,包括自监督边缘重构和基于图的生存计算,使模型能够推断出适应性的图谱拓扑。

    未引用的参考文献

    缺失的参考文献表3

    CRediT作者贡献声明

    李五超:撰写 – 审稿与编辑,撰写 – 原始草稿,软件开发,数据管理,概念构思。张燕:撰写 – 审稿与编辑,撰写 – 原始草稿,软件开发,数据管理。杨尚宗:撰写 – 审稿与编辑,撰写 – 原始草稿,方法论设计,数据管理。张学涛:撰写 – 审稿与编辑,撰写 – 原始草稿。李品豪:撰写 – 审稿与编辑,撰写 – 原始草稿。王荣平:撰写 – 审稿与编辑,撰写 – 原始草稿。

    利益冲突声明

    作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。

    致谢

    本工作得到了国家自然科学基金(编号:82160349)、贵州高级创新人才项目(QKHPTRC-GCC[2022]041-1)、贵州国际合作基地(QKBPT (2025) 004)以及贵州省卫生健康委员会科学技术基金(gzwjkj2019-1-203)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普
    • 急聘职位
    • 高薪职位

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号