基于无创尿液RNA生物标志物和梯度提升机器学习分类器的前列腺癌精准诊断新策略(PCASSO)

《Scientific Reports》:Prostate cancer diagnosis using sensitive and sophisticated machine learning classifiers based on non-invasive urinary RNA biomarkers (PCASSO)

【字体: 时间:2025年12月26日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对当前前列腺癌(PCa)筛查中血清前列腺特异性抗原(PSA)和直肠指检(DRE)特异性低、假阳性率高导致不必要活检的临床挑战,开发了基于无DRE尿液RNA生物标志物的机器学习诊断框架PCASSO。通过分析163例尿液样本中20种RNA标志物(包括lncRNA、融合基因和miRNA),梯度提升(GB)模型结合9种生物标志物展现出优异诊断性能(AUC达0.99),且在PSA灰区(3-10 ng/mL)患者中保持高准确性,为前列腺癌无创精准诊断提供了新方案。

  
前列腺癌(PCa)是全球男性第二高发的恶性肿瘤,每年新增病例约140万例。目前临床上主要依靠血清前列腺特异性抗原(PSA)检测和直肠指检(DRE)进行筛查,但这些方法存在明显的局限性:PSA检测特异性较低,容易产生假阳性结果,导致大量不必要的前列腺活检和过度治疗。特别在PSA灰区(3-10 ng/mL)的患者中,临床决策尤为困难,医生和患者都面临着是否进行侵入性活检的艰难抉择。
为了解决这一临床难题,来自浦项科技大学、峨山医学中心和Sysbiogen公司的研究团队在《Scientific Reports》上发表了题为"前列腺癌诊断使用敏感和复杂的机器学习分类器基于非侵入性尿RNA生物标志物(PCASSO)"的研究论文。他们开发了一种创新的诊断框架PCASSO,将机器学习(ML)算法与无DRE全尿样本中的RNA生物标志物谱相结合,为前列腺癌的无创精准诊断提供了新的解决方案。
研究团队采用了多项关键技术方法:收集了163例尿液样本(112例PCa,51例良性前列腺增生BPH)建立患者队列;使用实时定量PCR(qPCR)技术检测20种尿液RNA生物标志物,包括2种长链非编码RNA(lncRNA)、1种融合基因和17种microRNA(miRNA);通过六种不同的机器学习算法(支持向量分类SVC、随机森林RF、逻辑回归LR、朴素贝叶斯NB、梯度提升GB和多层感知器MLP)构建分类器;采用递归特征消除交叉验证(RFECV)进行特征选择;使用分层K折交叉验证和留一交叉验证(LOOCV)进行模型性能评估。
诊断PCa使用的尿液RNA标志物
研究团队首先评估了20种候选尿液RNA生物标志物在前列腺癌诊断中的潜力。这些标志物根据其在前列腺癌进展中的生物学作用、既往诊断效用证据以及在内部队列中的验证结果而选择。包括经典RNA如PCA3、MALAT1和TMPRSS2:ERG,以及17种调节雄激素受体信号、PI3K/AKT/STAT3、上皮间质转化(EMT)和肿瘤抑制通路的microRNA。研究发现两种lncRNA(MALAT1和PCA3)和TMPRSS2:ERG融合基因在PCa中表达上调,而所有miRNA生物标志物在PCa中表达下调。单个生物标志物的受试者工作特征(ROC)曲线分析显示,两个lncRNA和TMPRSS2:ERG融合基因的曲线下面积(AUC)分别为0.78和0.74。
通过ML进行的单生物标志物分析
在进入多标志物分析之前,研究团队首先使用单个尿液RNA生物标志物构建并测试了机器学习分类器的性能。六种不同的ML算法在训练数据集上训练后,在测试数据集上评估性能。单生物标志物分类器的性能因生物标志物选择和ML算法而异,最大AUC值为0.84(hsa-miR-17-3p,模型:SVC),分层K折交叉验证/留一交叉验证的最大值分别为0.864/0.859(hsa-miR-125b-5p,模型:SVC)。这一结果证实了使用单生物标志物成功构建ML分类器模型的可行性,但其性能的可变性也凸显了单变量方法的固有局限性。
通过ML进行的多标志物分析
为了克服单变量分析的局限性,研究团队构建并分析了多标志物的ML模型。通过RFECV算法筛选出最优的9种RNA生物标志物组合:PCA3、TMPRSS2:ERG、hsa-miR-125b-5p、hsa-miR-141-5p、hsa-miR-17-3p、hsa-miR-24-3p、hsa-miR-30b-5p、hsa-miR-30c-5p和hsa-miR-31-5p。多标志物模型实现了显著高于单生物标志物模型的AUC值,其中梯度提升(GB)模型结合九种尿液RNA生物标志物表现出最佳整体性能(AUC:0.99,分层K折交叉验证:0.912,留一交叉验证:0.890)。特征重要性分析显示,miRNA标志物对分类器准确性的贡献显著,在RF和GB中的总特征重要性分别达到76.3%和80.1%。
基于多尿液RNA生物标志物的ML分析的诊断性能
研究进一步分析了不同算法和生物标志物选择的ML决策。基于预测因子值的分析显示,错误分类病例通常出现在阈值0.5附近,反映了这些错误病例的预测确定性较低。与3标志物组合相比,9标志物组合的决策边际显著增加(GB和MLP除外)。GB和MLP结合9标志物组合在41例中的37例显示出最高的决策边际和一致性,仅有一个共同错误分类病例。
基于多尿液RNA生物标志物的ML分析在PSA灰区患者中的诊断性能
针对PSA灰区(3-10 ng/mL)患者临床决策的特殊挑战,研究评估了ML分类器在该患者亚组中的性能。在PSA灰区的96例患者(24例BPH,72例PCa)中,训练后的ML分类器显示出高于血清PSA(AUC:0.59)的AUC值,并且普遍具有较高的交叉验证分数。GB算法结合9种生物标志物表现出最佳性能(AUC为1.00),分层K折交叉验证和留一交叉验证分数分别为0.885和0.865。这些结果表明,基于多尿液RNA标志物的ML分类器在PSA灰区患者中仍能保持稳健的诊断能力。
研究团队开发的PCASSO诊断模型将复杂的机器学习技术与简单的尿液RNA qPCR检测相结合,在前列腺癌无创诊断领域展现了显著优势。与现有商业化的生物标志物检测方法相比,PCASSO模型仅需无DRE尿液样本,避免了血液采集和直肠指检的不适感,同时保持了较高的诊断准确性。特别是在PSA灰区患者中保持稳健性能,这对于临床决策具有重要意义。
该研究的局限性包括作为单国别探索性研究,样本量相对有限,且未考虑临床参数。未来在独立、多中心队列中的进一步验证将有助于评估其临床实用性。此外,结合新型影像学检查和其他临床参数可能进一步提高模型的性能和稳健性。
总的来说,PCASSO框架代表了前列腺癌诊断领域的重要进展,为开发更准确、患者友好型的筛查工具奠定了基础。这种基于无创尿液生物标志物的机器学习方法不仅有望减少不必要的活检程序,还能为PSA水平处于灰区的患者提供更清晰的临床决策指导,最终实现前列腺癌的精准医疗目标。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号