《Scientific Reports》基于机器学习精准识别前列腺癌及 CRPC 共表达基因并构建预后模型的创新研究

【字体: 时间:2025年02月17日 来源:Scientific Reports 3.8

编辑推荐:

  为解决前列腺癌预后预测准确性不足等问题,郑州大学第二附属医院的研究人员开展前列腺癌及 CRPC 共表达基因识别和预后模型构建研究。他们成功构建 7 基因模型,该模型预测效果良好。推荐科研读者阅读,助您把握前沿成果!

  

郑州大学第二附属医院(Second Affiliated Hospital of Zhengzhou University)的研究人员在《Scientific Reports》期刊上发表了题为 “Machine learning-based identification of co-expressed genes in prostate cancer and CRPC and construction of prognostic models” 的论文。这篇论文在前列腺癌研究领域意义重大,为该疾病的预后评估和个性化治疗策略的制定提供了新的思路和方法。


研究背景


前列腺癌是严重威胁男性健康的恶性肿瘤,在西方发达国家,它是男性中最常见的恶性肿瘤之一,死亡率仅次于肺癌。对于中晚期前列腺癌患者,雄激素剥夺疗法(ADT,Androgen Deprivation Therapy)是主要的治疗手段。然而,几乎所有患者在接受 ADT 治疗 18 - 36 个月后都会产生耐药性,进而发展为去势抵抗性前列腺癌(CRPC,Castration-Resistant Prostate Cancer),此时患者的中位生存期仅约 13 个月。


由于前列腺癌具有异质性,传统的单一预后标志物在预测患者预后方面准确性不足。因此,迫切需要找到可靠的生物标志物来预测前列腺癌患者的预后,并确定潜在的治疗靶点。本研究旨在通过机器学习的方法,识别前列腺癌发生和去势抵抗过程中共同的差异表达基因(DEGs,Differentially Expressed Genes),构建稳健的预后模型,为评估患者预后和制定个性化治疗策略提供依据 。


研究方法


  1. 数据获取:研究人员从 NCBI 基因表达综合数据库(GEO,Gene Expression Omnibus)获取 mRNA 微阵列数据作为训练集,包括 GSE35988 数据集,其中包含 12 例正常前列腺组织样本、49 例前列腺癌组织样本和 27 例去势抵抗性前列腺癌组织样本。同时,利用 GSE66187 数据集作为验证集。

  2. 差异表达基因的识别:运用 limma R 包对 GSE35988 数据集进行差异表达分析,分别比较正常组织与前列腺癌组织、前列腺癌组织与去势抵抗性前列腺癌组织。设定筛选标准为 p.adj <0.01 且 | log2FC|>1,其中 log2FC>1 表示上调基因,log2FC<-1 表示下调基因。之后,使用 ggplot2 绘制火山图,用 heatmap 包绘制基因表达热图,并通过维恩图找出两个阶段进展中共同失调的基因。

  3. 差异基因的功能分析:借助 enrichplot R 包和 clusterProfiler R 包进行富集分析,并用 barplot R 包和 dotplot R 包生成可视化图表,对差异基因进行 GO(基因本体论,Gene Ontology)和 KEGG(京都基因与基因组百科全书,Kyoto Encyclopedia of Genes and Genomes)信号通路分析。

  4. 风险预后模型的建立:在 TCGA-PRAD 数据集上,使用 survival 包对上述共同差异表达基因进行单变量 Cox 回归分析,筛选出与无进展生存期(PFI,Progression-Free Interval)显著相关(P<0.05)的基因,再进行 LASSO 回归分析以降维和变量选择。通过十折交叉验证确定惩罚参数(λ),选取使模型均方误差(MSE,Mean Squared Error)最小的 λ 值,最终确定 7 个基因构建预后模型。随后进行多变量 Cox 回归分析,计算患者的 PFI 风险评分(RS,Risk Score)。

  5. 预测模型准确性的验证:获取 GEO 数据库中的 GSE116918 数据,依据训练集公式计算每位患者的风险评分,按中位数将患者分为低风险和高风险组,通过 Kaplan - Meier(KM)曲线分析生存差异,用受试者工作特征(ROC,Receiver Operating Characteristic)曲线评估特征预测准确性。

  6. 列线图和校准曲线的构建:整合年龄、临床 T 分期、病理 T 和 N 分期、前列腺特异性抗原(PSA,Prostate-Specific Antigen)水平、Gleason 评分和风险评分等临床数据,利用 R 软件中的 RMS 包创建列线图预测个体生存概率,生成校准曲线评估 PRAD 患者 1 年、3 年和 5 年的预测生存率,并通过决策曲线分析(DCA,Decision Curve Analysis)评估其临床实用性。

  7. 关键基因差异表达的验证:从肿瘤和癌症基因组图谱(TCGA,The Cancer Genome Atlas)数据库检索 TCGA_PRAD RNAseq 数据(TPM 格式),用 R 软件 3.6.3 进行统计计算和可视化,分析癌组织与正常组织中关键基因的表达差异。同时分析 GSE66187 数据集,比较去势抵抗性前列腺癌与原发性前列腺癌组织中关键基因的表达差异。

  8. 前列腺癌患者关键基因的临床特征和预后分析:分析所选关键基因的表达水平与临床变量(病理分期、临床分期、诊断年龄、PSA 水平、Gleason 评分)的相关性,评估其与 PFI 的关联。

  9. 统计处理:使用 SPSS 25、R 语言(R 4.3.2)和 R studio(2023.12.0 Build 372)进行数据处理。符合正态分布的计量资料以均数 ± 标准差(x ± s)表示,采用 t 检验;非正态分布则用非参数检验。计数资料以率(%)表示,用卡方检验。


研究结果


  1. 差异表达基因的探索:在正常与前列腺癌组的比较中,发现 494 个差异表达基因,其中 192 个上调,302 个下调;在激素敏感与去势抵抗组的比较中,有 4867 个差异表达基因,1900 个上调,2967 个下调。维恩图分析显示,两个数据集共有 182 个共同差异表达基因,包括 30 个共同上调基因和 152 个共同下调基因。

  2. GO 和 KEGG 富集分析结果:GO 分析表明,差异表达基因参与有丝分裂细胞周期、细胞分裂、超分子复合物、微管细胞骨架、细胞骨架蛋白结合和微管结合等生物学过程。KEGG 数据库分析发现,这些基因在粘着斑、Hippo 信号通路、血管平滑肌收缩和 TGF-β 信号通路等代谢途径中富集。

  3. 前列腺癌预后风险模型:对两个数据集的共同差异表达基因进行单变量 Cox 回归分析,找到 67 个与预后相关的基因。Lasso 回归分析确定最佳模型包含 7 个基因:KIF4A、UBE2C、FAM72D、LIX1、CCDC78、HOXD9 和 SLC5A8。多变量 Cox 回归分析为每个基因提供回归系数和常数项,构建出风险预后模型。通过 Kaplan - Meier 生存分析、ROC 曲线分析和决策曲线分析(DCA)评估模型有效性,结果显示高风险组疾病复发或死亡率更高,无病生存期更短,风险评分越高预后越差。模型在 1 年、3 年和 5 年的预测中表现良好,校准曲线也验证了其预测准确性。单变量和多变量 Cox 回归分析表明,风险评分和 PSA 水平是独立的预后因素,凸显了模型的稳健性和临床实用性。

  4. 使用 GEO 数据库验证风险模型:在 GSE116918 验证数据集中,Kaplan - Meier 分析证实低风险患者预后优于高风险患者,生存 ROC 曲线的曲线下面积(AUC)显示模型在预测患者预后方面具有较强的敏感性和特异性。

  5. 列线图的创建和评估:构建的列线图结合多种临床参数预测 PRAD 患者预后,突出了风险评分的重要性。校准曲线表明列线图与实际生存结果相符,且该模型的 AUC 值高于传统预后评分系统。

  6. 关键基因表达水平的验证:在 TCGA-PRAD 数据集和 GSE66187 数据集中,KIF4A、UBE2C、FAM72D 和 CCDC78 在前列腺癌和去势抵抗性前列腺癌中高表达,而 LIX1、SLC5A8 和 HOXD9 低表达,与风险预后模型结果一致。

  7. 关键基因的临床意义和生存分析:整合 TCGA 数据库的临床预后信息,发现 KIF4A、UBE2C、FAM72D 高表达或 LIX1 低表达与前列腺癌患者更高的病理 T 和 N 分期、临床 T 分期、年龄、PSA 水平、Gleason 评分及较差的 PFI 相关。SLC5A8 低表达、CCDC78 高表达、HOXD9 表达增加也分别与相应的不良临床指标和较差的 PFI 相关。


研究结论与讨论


本研究成功构建了包含 KIF4A、UBE2C、FAM72D、CCDC78、HOXD9、LIX1 和 SLC5A8 这 7 个基因的前列腺癌风险预后模型,并在独立数据集上验证了其准确性。校准曲线和决策曲线分析显示该模型具有潜在的临床应用价值,列线图能准确预测患者预后。此外,研究还发现部分基因的表达与多种临床病理特征和患者预后相关。


研究中涉及的 KIF4A、UBE2C 等基因在癌症生物学中发挥着重要作用。例如,KIF4A 参与调节有丝分裂中染色体的凝聚和分离,其过表达与多种癌症不良预后相关;UBE2C 是真核生物蛋白质降解途径的关键调节因子,与多种癌症的发生发展相关。这些基因不仅为前列腺癌的预后评估提供了新的生物标志物,还可能成为潜在的治疗靶点,为个性化治疗策略的制定提供了方向。


不过,该研究也存在一定的局限性。这些基因对前列腺癌细胞增殖、侵袭和凋亡的作用机制尚不明确,需要进一步深入探索。而且研究的样本量较小,后续需要开展多中心、大样本的前瞻性研究来验证研究结果的可靠性。


总体而言,这项研究通过整合生物信息学分析和临床数据,建立了可靠的前列腺癌预后模型,确定了疾病进展和治疗耐药中的关键基因,为前列腺癌患者的预后评估和个性化治疗提供了新的视角和方法,对推动前列腺癌的临床研究和治疗发展具有重要意义。


相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号