编辑推荐:
为解决前列腺癌(PCa)生化复发(BCR)预测难题,研究人员开发深度学习系统,其预测性能良好,助力制定治疗策略。
前列腺癌是男性常见的恶性肿瘤,许多患者会选择根治性前列腺切除术。在成功的手术之后,前列腺特异性抗原(PSA)浓度大多会在 2 - 6 周后变得检测不到(<0.1 ng/mL )。然而,20% - 40% 的患者在术后 PSA 水平会再次升高,这意味着生化复发(BCR),表明癌细胞可能重新生长。BCR 是后续转移和死亡的重要风险因素,所以在手术前准确预测患者是否会发生 BCR 至关重要,这能帮助医生为高风险患者选择更积极的治疗方案,比如额外的化疗、放疗等。
目前,前列腺多核针穿刺活检是诊断前列腺癌的可靠方法,其组织学病理分级与直肠指检、PSA 水平构成了大多数术前预测系统的基础。但这些系统的预后和判别性能并不理想,比如 Gleason 分级系统,它在 20 世纪 60 年代就已出现,不同病理学家之间对其判读的一致性欠佳,而且它还忽略了一些重要的形态学模式和细微的组织病理学特征。
为了解决这些问题,天津医科大学肿瘤医院、天津科技大学、天津宝坻医院等机构的研究人员展开了深入研究。他们开发了一种基于深度学习(DL)和多实例学习(MIL)框架的术前 BCR 预测系统,并将研究成果发表在《BMC Cancer》上。这一研究成果对指导前列腺癌根治术的治疗过程具有重要意义,有助于医生为患者制定更精准的治疗策略。
研究人员开展这项研究时,用到了几个主要关键的技术方法。首先,收集了两个独立队列的患者数据,这些患者在 2018 年 1 月 1 日至 2020 年 12 月 31 日期间,因临床局限性前列腺癌在手术前进行了多核针穿刺活检。然后,利用 Inception_v3 神经网络进行模型训练和测试,采用多实例学习方法提取全切片图像(WSI)级别的特征。最后,将深度学习生成的病理特征与多种机器学习算法相结合,构建患者级别的人工智能模型。
下面来看看具体的研究结果:
- 性能评估和可视化:研究人员在斑块级、WSI 级和患者级使用受试者工作特征(ROC)曲线评估 BCR 预测系统的性能。在斑块级预测中,Inception_v3 架构在训练数据集上的 AUC 为 0.968,在测试数据集上为 0.803;在 WSI 级预测中,所有机器学习分类器在测试数据集上的性能均优于斑块级预测,随机森林分类器的 AUC 值达到 0.848;在患者级预测中,平均池化和最大池化特征聚合后,分类器的性能进一步提高,平均池化操作表现更优,使用多层感知器(MLP)和逻辑回归(LR)分类器时 AUC 值达到 0.908。通过概率图评估斑块级预测结果发现,BCR 患者的 WSI 中有更多概率值接近 1 的斑块。利用梯度加权类激活映射(Grad - CAM)技术,突出了对预测有显著贡献的图像区域,有助于理解模型的决策过程。
- WSIs 数量对预测性能的影响:研究评估了每个患者的 WSI 数量对模型效果的影响。结果显示,对于使用 MLP、LR 和支持向量机(SVM)分类器的模型,随着每个患者 WSI 数量的增加,AUC 值升高,当使用所有 WSI 进行训练时,模型达到最高 AUC 值。这表明增加每个患者的 WSI 数量可以提高 MIL 模型的泛化性能。
- 临床特征对预测性能的影响:对比使用病理图像和临床特征训练的分类器的 ROC 曲线发现,与临床特征相比,利用 CNN 和 MIL 方法提取的病理图像特征能显著提高模型效果。使用病理和临床特征训练的 MLP 分类器达到了本研究中的最高 AUC 值 0.911(95% CI:0.840 - 0.982)。决策曲线分析表明,所有使用病理和临床特征训练的分类器都具有良好的临床效益。
在研究结论和讨论部分,该研究开发的术前 BCR 预测系统展现出了良好的性能,在测试队列中 AUC 达到 0.911,决策曲线分析也显示出潜在的临床益处。与以往的预测系统相比,该系统基于 InceptionV3 骨干网络,使用术前活检组织的 WSI 训练深度学习模型,在 WSI 级别的 AUC 值更高。多实例学习方法有效地提高了深度学习模型的性能,通过将其与直方图方法结合,提取了 WSI 级别的特征,进而得到患者级别的特征。研究还发现增加每个患者的 WSI 数量可以改善模型的整体性能,并且通过可视化发现 DL 特征与病理结果显著相关,表明了基于 WSI 的 DL 模型具有可解释性。
不过,这项研究也存在一定的局限性。例如,研究中选择的患者均至少有五个含有 PCa 组织的活检核心,这可能会导致患者纳入的选择偏倚;而且研究收集的是回顾性队列,前瞻性设计会进一步加强研究结果的可靠性 。但总体而言,该研究成果为前列腺癌的治疗提供了有价值的参考,有望帮助医生更好地为患者制定个性化的治疗方案,在前列腺癌的精准医疗领域迈出了重要一步。