编辑推荐:
为解决结直肠癌诊断和预后预测难题,研究人员开展基于自监督学习(SSL)的研究,发现 47 个 HPCs,对治疗决策有意义。
在医学领域,结直肠癌的诊断和治疗一直是备受关注的焦点。传统上,结直肠癌的诊断依赖于病理学家对苏木精 - 伊红染色(H&E)切片的显微镜评估,随后通过多学科会议,依据临床病理特征进行风险评估,进而制定个性化治疗策略。然而,随着人口老龄化以及生物标志物研究的不断增多,这种诊断和预后预测方式变得愈发耗时、复杂,且对资源的需求巨大。比如,在对患者进行突变变异筛查时,过程繁琐且成本高昂。
在此背景下,纽约大学格罗斯曼医学院、莱顿大学医学中心等机构的研究人员开展了一项极具意义的研究。该研究成果发表在《Nature Communications》上,为结直肠癌的治疗带来了新的曙光。
研究人员运用了多种关键技术方法。首先,使用来自癌症基因组图谱(TCGA)的多机构数据集,对自监督算法进行训练,避免了对病理学家注释的依赖。其次,利用 Barlow Twins 特征提取器从预处理后的图像块中提取 128 维特征向量,该模型基于 ResNet 架构,通过优化使交叉相关矩阵接近单位矩阵来学习非冗余图像特征。然后,采用 Leiden 社区检测算法构建组织形态学表型簇(HPCs),并对其进行优化和验证。此外,还运用了 Cox 回归和 SHapley Additive exPlanations(SHAP)等方法,探究 HPCs 与患者总体生存(OS)的关系,并对相关结果进行分析。
下面来看具体的研究结果:
- WSI 特征的自监督学习:研究人员利用 TCGA 结肠腺癌(TCGA - COAD)数据集训练自监督算法,将 435 个 WSIs 划分为小图像块,使用 Barlow Twins 特征提取器从中随机选取 250,000 个图像块进行训练,最终每个图像块被描述为 128 维特征向量,用于后续聚类分析。
- 构建组织学模式的无偏图谱:通过 Leiden 社区检测算法,在 TCGA - COAD 数据集上识别出 47 个 HPCs,并在外部 AVANT 试验的 1213 例结直肠癌患者数据集中进行验证。研究人员使用 K - 最近邻方法将 HPCs 标签分配给 AVANT 数据集中的图像块,从而获得 WSIs 的可视化表示,并利用 HPCs 的组成数据进行下游分析。
- HPCs 的组织病理学评估和表征:对每个 HPC 进行组织病理学分析,由两位病理学家和一名研究人员独立评估。结果发现,HPCs 可分为八个 “超级簇”,包括健康和发育异常的结肠组织、坏死组织、黏液区域等。不同超级簇内的 HPCs 具有共同的组织病理学特征,位于不同超级簇交界处的 HPCs 则包含多种组织类型,暗示了潜在的发病机制。
- HPCs 在不同数据集的一致性评估:通过定性和定量评估,研究人员发现 47 个 HPCs 在 TCGA - COAD 数据集中具有较高的簇内形态相似性和显著的簇间多样性。在 TCGA 和 AVANT 数据集中,部分 HPCs 的识别准确率较高,且从 TCGA 数据集提取的形态特征可有效转移到 AVANT 测试集,表明 HPCs 具有良好的一致性和可转移性。
- HPCs 与患者生存的关联:研究人员构建了基于 HPCs 的 OS 预测模型,并在 AVANT 试验的对照组(仅接受标准辅助化疗 FOLFOX - 4)和实验组(接受贝伐单抗联合化疗)中进行验证。结果显示,基于 HPCs 的分类器在调整重要临床和人口统计学变量后,是独立的预后因素,对 OS 具有重要的预测价值。不同 HPCs 与患者生存存在不同关联,如含有较多健康结肠组织或免疫细胞的 HPCs 与较好的 OS 相关,而含有黏液肿瘤、肿瘤间质和低分化肿瘤上皮的 HPCs 则与较差的 OS 相关。
- HPCs 与免疫特征和致癌通路的关联:通过计算 Spearman 相关性和进行基因集富集分析(GSEA),研究人员发现 HPCs 与肿瘤微环境中的免疫特征和致癌通路密切相关。在标准治疗组和 AVANT 实验组中,不同 HPCs 与免疫细胞浸润、基因组不稳定性、致癌通路富集等存在不同的相关性,这些结果有助于揭示肿瘤的发生发展机制以及不同治疗方案的作用机制。
在研究结论和讨论部分,研究人员成功识别并验证了 47 个不同的 HPCs,这些 HPCs 具有独特的组织形态学特征,并与多种免疫特征和致癌通路相关,在 OS 预测方面表现出色。基于 HPCs 的风险分类器在调整重要临床和人口统计学变量后,可提供额外的预后信息,有助于更准确地评估患者预后。此外,研究还强调了肿瘤微环境,特别是肿瘤间质及其对患者生存的影响。研究发现的一些与生存相关的组织病理学模式,为理解结直肠癌的发病机制和制定治疗策略提供了新的视角。然而,该研究也存在一定的局限性,如基于小图像块识别 HPCs 可能丢失大背景信息,使用 TCGA 作为训练集可能存在数据偏差,且仅关注 OS 而非无病生存期(DFS)等。尽管如此,该研究为结直肠癌的治疗开辟了新的方向,未来研究可进一步优化预测准确性,并验证相关治疗策略的机制,有望为结直肠癌患者带来更精准、有效的治疗方案。