基于 PHI 相关变量和 PI-RADS 构建不同 PSA 人群前列腺癌在线聚类预测模型,助力精准诊断

【字体: 时间:2025年02月15日 来源:Cancer Cell International 5.3

编辑推荐:

  为解决前列腺癌诊断难题,研究人员构建基于 PHI 和 PI-RADS 的聚类模型,可有效分类风险,辅助临床诊断。

  前列腺癌,这个隐匿在男性健康领域的 “杀手”,近年来愈发猖獗。在 2022 年,它已成为男性群体中最为常见的恶性肿瘤之一,新发病例占比高达 27%,癌症死亡比例也达到了 11%,排名第二。为了能尽早揪出这个 “敌人”,血清前列腺特异性抗原(PSA)作为一种常用的生物标志物,被广泛应用于临床筛查。大量随机试验证明,PSA 筛查确实能降低前列腺癌的死亡率。
然而,PSA 并非十全十美。它对前列腺癌的特异性较低,这就导致了在诊断过程中,误判的情况屡见不鲜。尤其是当 PSA 值处于 4 - 10 ng/ml 这个 “灰色地带” 时,许多男性会收到假阳性的诊断结果,实际上,只有约 18% 的人经病理确诊患有前列腺癌(PCa)。为了提高诊断的准确性,科研人员陆续开发了诸如前列腺健康指数(PHI)、4K Score、ExoDx Prostate Intelliscore(EPI)、前列腺癌抗原 3(PCA3)等新的诊断参数。但遗憾的是,这些单一参数在诊断效率上都难以令人满意。

此外,随着经直肠超声(TRUS)和多参数磁共振成像(mpMRI)在前列腺癌检测中的应用越来越广泛,将血清生物标志物与成像技术相结合的研究也不断涌现。像前列腺特异性抗原密度(PSAD,指总 PSA 与前列腺体积的比值)、前列腺健康指数密度(PHID,指 PHI 与前列腺体积的比值)等参数应运而生,旨在提高诊断的特异性。风险计算诊断模型如 STHLM3 也被用于区分前列腺的良恶性疾病,虽然特异性较高,但因其包含的生物标志物复杂,导致得分计算十分繁琐。

目前,许多研究聚焦于利用 PHI、PHID 或 PSAD 等指标构建前列腺癌的诊断模型,其中 PHID 虽有一定优势,但也存在局限性。同时,多数研究侧重于模型的检测效率,忽视了阴性预测值(NPV)。而且,这些研究大多以列线图的形式构建预测模型,在实际应用中计算概率复杂,难以直观呈现风险类别。更重要的是,此前尚无基于聚类算法构建的 PHI 相关前列腺癌预测模型,且针对 PSA 超过 20 的患者数据收集较少。然而,中国医科大学附属第一医院的数据显示,这部分患者中约 26.42% 的活检结果为阴性,67.45% 的患者年龄超过 65 岁,他们急需一个针对性的模型来辅助判断是否需要进行前列腺活检。

为了解决这些问题,中国医科大学附属第一医院等机构的研究人员开展了一项极具意义的研究。他们旨在寻找不同 PHI 阈值下的最高 NPV,构建分类模型,将患者分为不同的前列腺癌风险类别,尤其关注 PSA > 20 的患者群体,并期望模型能在临床实践中得到应用。该研究成果发表在《Cancer Cell International》杂志上。

研究人员在开展此项研究时,运用了多种关键技术方法。他们收集了中国医科大学附属第一医院的 708 例患者作为训练队列,以及湖南院区的 143 例患者作为验证队列。对每个患者的前列腺体积(PV)、PHI、总前列腺特异性抗原(TPSA)、游离前列腺特异性抗原(FPSA)等多项指标进行收集。通过多种机器学习算法进行比较,最终选择逻辑回归(LR)进行变量提取。利用主成分分析(PCA)和 t - 分布随机邻域嵌入(t-SNE)算法进行数据降维,再通过 K-means 聚类构建模型。同时,运用多种统计分析方法评估模型性能。

下面让我们来详细了解一下这项研究的结果。

  1. PHI 临界值确定及 NPV、PPV 计算:研究确定了不同 PSA 亚组的 PHI 最佳临界值。对于 PSA > 4 的亚组,最佳 PHI 下限为 23.85,NPV 达 93.65%,上限为 142.9,PPV 为 99.29%;PSA 4 - 20 亚组的下限是 24.35,NPV 为 92.98%,上限为 143,PPV 为 95.83%;PSA > 20 亚组下限为 40.75,NPV 为 96.43%,上限为 135.6,PPV 为 99.16% 。定制 PHI 临界值也进行了计算,与最佳临界值存在差异。
  2. 模型构建前准备:通过对 7 种基于机器学习的预测方法进行综合评估,逻辑回归(LR)在所有亚组中表现最佳,因此被选用于后续变量提取。经过对数据的处理和分析,确定了每个亚组纳入聚类算法的变量。不同亚组的变量有所不同,例如 PSA > 4 的最佳 PHI 阈值队列中,最终选定的变量包括 “TPSA”“fPSA”“PHI”“PSAD”“PI-RADS” 和 “% fPSA”。
  3. 聚类模型构建:利用 PCA 和 t-SNE 算法对数据降维后,进行 K-means 聚类,将患者分为不同的癌症风险类别(CLASS 0、1、2、3)。从聚类效果来看,不同亚组呈现出不同的特点。其中,PSA > 20 亚组的轮廓系数最高,达到 0.572,聚类效果较好;定制 PHI 阈值队列中 PSA > 4 亚组的轮廓系数最低,为 0.432。整体上,基于最佳 PHI 阈值队列的聚类效果略优于定制 PHI 阈值队列。
  4. 模型性能验证:在验证队列中,不同亚组的模型表现各有特点。PSA 4 - 20 亚组的准确率最高,为 90.38%;PSA > 20 亚组的准确率虽为 82.05%,相对较低,但 AUC 值却最高,达到 0.833;PSA > 4 亚组的 AUC 值最低,为 0.761,但其他参数表现相对平衡。所有亚组的特异性均高于敏感性。此外,研究人员还开发了网页工具,方便临床应用。
  5. 不同变量对前列腺癌预测的影响:通过 LR 方法比较各亚组内特征重要性系数发现,PHI 在每个组中的重要性均居首位,远超 PI-RADS,而 PI-RADS 的排名不稳定。同时,研究还发现 PSAD 的性能优于 PSA,PHI 的性能优于 PHID,但 PHI 单独区分 PCa 和临床显著性前列腺癌(CSPCa)的能力在统计学上并不显著。

研究结论表明,该聚类模型能够有效地将患者分为不同的风险组,可视化效果良好,在验证队列中也展现出了稳定性和可靠性。这一模型有助于临床医生更准确地评估患者的前列腺癌风险,尤其是对于 PSA > 20 的患者群体,能辅助判断是否需要进行活检,减少不必要的操作,从而在临床实践中为前列腺癌的早期诊断提供有力支持。

不过,这项研究也存在一些局限性。研究未深入探讨 PHI 的其他作用,例如其在评估骨转移、预测前列腺癌根治术后病理结果等方面的应用。同时,验证集的样本存在一定局限性,PSA > 20 患者的比例较低,且验证数据仅来自本中心的不同院区,缺乏其他医疗中心的数据。未来,随着网页工具在其他中心的推广应用,有望收集更多数据,进一步丰富和优化聚类模型。

总体而言,这项研究为前列腺癌的诊断开辟了新的路径,其构建的聚类模型具有重要的临床应用价值,虽然存在不足,但也为后续研究指明了方向,相信在科研人员的不断努力下,前列腺癌的诊断难题将逐步得到解决。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号