
-
生物通官微
陪你抓住生命科技
跳动的脉搏
《Scientific Reports》通过生物信息学模型研究核苷酸代谢与胶质母细胞瘤预后的相关性
【字体: 大 中 小 】 时间:2025年02月14日 来源:Scientific Reports 3.8
编辑推荐:
论文通过生物信息学模型探究核苷酸代谢(Nucleotide metabolism,NM)与胶质母细胞瘤预后的相关性,识别出与 GBM 预后相关的潜在生物标志物,构建并验证了预后模型,分析了相关基因的功能、免疫微环境以及突变情况 ,为 GBM 的研究和治疗开辟了新方向。
安徽医科大学第一附属医院(Department of Neurosurgery, The First Affiliated Hospital of Anhui Medical University)的研究人员在《Scientific Reports》期刊上发表了题为 “Investigating the relevance of nucleotide metabolism in the prognosis of glioblastoma through bioinformatics models” 的论文。这篇论文在胶质母细胞瘤(Glioblastoma,GBM)研究领域意义重大,为深入了解 GBM 的发病机制、寻找潜在治疗靶点以及精准判断患者预后提供了新的思路和依据。
论文通过生物信息学模型探究核苷酸代谢(Nucleotide metabolism,NM)与胶质母细胞瘤预后的相关性,识别出与 GBM 预后相关的潜在生物标志物,构建并验证了预后模型,分析了相关基因的功能、免疫微环境以及突变情况 ,为 GBM 的研究和治疗开辟了新方向。
胶质母细胞瘤是中枢神经系统中常见且恶性程度极高的肿瘤,被世界卫生组织列为 IV 级肿瘤,起源于神经胶质干细胞。目前,标准治疗方案包括手术、辅助化疗和放疗,但即便进行广泛的肿瘤切除,患者平均生存时间也仅约 18 个月,复发率高,预后极差。
癌细胞具有多种侵袭特性,其中代谢失调尤为突出,包括核苷酸合成过多。核苷酸合成抑制剂是最早开发的抗肿瘤药物之一,在多种癌症治疗中占据重要地位。癌症基因组图谱数据显示,不同级别 GBM 在核苷酸结合结构域和富含亮氨酸重复序列受体的调控上存在显著差异,且与生存率密切相关。肿瘤细胞的单磷酸腺苷水平高于正常细胞,GBM 还能快速改变代谢途径以抵抗传统疗法。尽管当前对 GBM 分子机制的研究不断深入,但仍未全面揭示其发病过程,也未能显著改善患者预后。因此,开展该项研究,从核苷酸代谢角度深入剖析 GBM,对提高患者生存率和改善预后具有重要意义。
数据采集:研究数据主要来源于多个公开数据库。从癌症基因组图谱(The Cancer Genome Atlas,TCGA)数据库获取 RNA 测序数据,包括 173 个样本(167 个 GBM 样本和 5 对癌与癌旁组织样本),涵盖体细胞突变、拷贝数变异、生存信息及临床特征;从中国胶质瘤基因组图谱(Chinese Glioma Genome Atlas,CGGA)的 mRNAseq_325 数据集中提取 85 个 GBM 样本的表达谱和生存信息;从基因表达综合数据库(Gene expression omnibus,GEO)下载 GSE147352 数据集(85 个 GBM 患者组织样本和 15 个正常脑组织样本),用于验证生物标志物表达水平。此外,通过分子特征数据库(Molecular Signatures Database,MSigDB)从 Reactome 途径识别出 97 个核苷酸代谢相关基因(Nucleotide metabolism-related genes,NMRGs)。
数据处理:为使数据更符合正态分布并减少偏差,对基因计数数据进行 log 转换,对 FPKM 数据在 log 转换时加 1 以避免负无穷值。选取样本表达数据对应的临床信息,进行数据清洗,去除缺失值,将生存状态编码为 1(死亡)和 0(生存),时间单位设为天,处理后的数据保存为.rda 文件格式用于后续分析。
识别差异表达的核苷酸代谢相关基因(DE-NMRGs):利用 DESeq2 软件对 TCGA - GBM 数据集中肿瘤和正常样本的基因表达水平进行差异表达分析,以 Padj <0.05 且 | log?FC|>1 为标准识别差异表达基因(Differentially expressed genes,DEGs),使用 ggplot2 和 heatmap 进行可视化展示。通过基因集富集分析(Gene Set Enrichment Analysis,GSEA)和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)分析确定相关代谢和信号转导途径,再通过 DEGs 与 NMRGs 的交集识别 DE-NMRGs,并利用 proteomaps 了解相关蛋白质的生物学作用。
构建预后模型:依次进行单变量 Cox 回归分析筛选与预后显著相关的候选基因(P<0.05),利用最小绝对收缩和选择算子(Least absolute shrinkage and selection operator,LASSO)回归分析优化模型并降维,确定强预后基因,最后通过逐步回归分析构建多变量 Cox 模型,经比例风险(Proportional hazards,PH)假设检验确保模型的稳定性和可靠性。
评估和验证预后模型:使用 CGGA - GBM 和 TCGA - GBM 两个数据集评估模型的泛化能力。根据公式计算风险评分,以中位风险评分为界将样本分为高、低风险组,通过 Kaplan - Meier(K-M)分析和受试者工作特征(Receiver operating characteristic,ROC)曲线评估模型的准确性和敏感性,利用主成分分析(Principal component analysis,PCA)判断预后基因区分风险组的能力,通过箱线图展示临床特征与风险评分的差异。
独立评估预后因素:通过单变量和多变量 Cox 回归分析确定 GBM 的独立预后因素,包括临床特征和风险评分,构建列线图(nomogram),利用校准曲线评估其预测准确性,绘制 ROC 曲线考察 GBM 患者 1、2、3 年生存率。
单基因 GSEA 和 ceRNA 网络构建:运用 clusterProfiler 进行单基因 GSEA,分别开展 GO 和 KEGG 分析确定基因的富集调控途径和分子功能。从 miRDB 数据库预测关键基因的靶 miRNA,从 Starbase 数据库预测 lncRNA 与 miRNA 的相互作用数据,构建 mRNA - miRNA - lncRNA 调控网络。
免疫微环境分析:采用 CIBERSORT 算法量化高、低风险组 22 种免疫细胞浸润水平的差异,通过 Spearman 相关分析和 Wilcoxon 检验研究免疫细胞与生物标志物的相关性,验证免疫检查点相关基因,用热图展示基因表达水平和临床特征,再次使用 Wilcoxon 检验考察高、低风险组及免疫检查点的差异。
突变情况分析:研究 TCGA - GBM 数据集中高、低风险组肿瘤突变负荷(Tumor mutational burden,TMB)和生物标志物突变的差异,使用 maftools 进行突变可视化,构建热图展示基因的共发生和相互排斥情况。
蛋白质和基因表达验证:借助人类蛋白质图谱(Human Protein Atlas)验证正常和肿瘤组织样本中生物标志物蛋白的表达,利用 Wilcoxon 检验确定 TCGA - GBM 和 GSE147352 数据集中差异表达的生物标志物。同时,通过实时逆转录聚合酶链反应(Real-time reverse-transcriptase polymerase chain reaction,RT - qPCR)对 10 个样本进行生物标志物表达分析。
TCGA - GBM 中的 DEGs 和 DE-NMRGs:共鉴定出 6762 个 DEGs,其中 3392 个上调,3370 个下调。GO 分析显示这些 DEGs 在突触膜、突触前和突触后特化等方面富集;KEGG 分析表明其在谷氨酸能突触、神经活性配体 - 受体相互作用、冠状病毒病 COVID - 19 和 GABA 能突触等途径显著富集。通过交集分析得到 36 个 DE-NMRGs,proteomaps 显示其生物活性主要与嘌呤和嘧啶代谢相关。
关键生物标志物的识别:构建预后模型评估 DE-NMRGs 对 GBM 患者预后的影响。单变量 Cox 分析筛选出 5 个具有显著预后潜力的基因:NUDT1、TYMP、UPP1、CDA 和 ADSL。经 LASSO 回归和多变量 Cox 分析,去除 TYMP,剩余 4 个基因(NUDT1、CDA、UPP1 和 ADSL)经 PH 假设检验确认为关键生物标志物。
风险评分与生存率的关系:在 CGGA - GBM 和 TCGA - GBM 数据集中,GBM 患者风险评分越高,生存率越低。ROC 曲线分析显示曲线下面积(Area under the curve,AUC)大于 0.6,表明模型对 GBM 患者总生存期(Overall survival,OS)的预测具有准确性。K-M 生存曲线表明低风险组患者生存时间显著更长,PCA 显示预后基因能有效区分高、低风险患者。
临床特征与风险评分:年龄较大、间充质亚型、MGMT 启动子去甲基化和野生型 IDH 突变等临床特征与高风险评分相关。分层生存分析表明风险评分能可靠预测不同临床特征亚组的 OS。
独立预后因素的识别:除风险评分外,MGMT 启动子和 IDH 突变状态也是 GBM 的独立预后因素。单变量和多变量 COX 回归模型证实了风险评分、MGMT 启动子状态和 IDH 突变是显著的预后指标。基于这些因素构建的列线图显示,评分越高,患者生存率越低,校准曲线和 AUC 验证了列线图的有效性。
与生物标志物相关的分子和途径:预测到 11 个 miRNA 和 3 个 lncRNA 与生物标志物相关,构建了 mRNA - miRNA - lncRNA 调控网络。以 UPP1 为例,GSEA 和 KEGG 分析显示其相关生物过程主要富集在细胞介导的免疫反应以及核糖体与细胞因子 - 细胞因子受体的相互作用两类。
与生物标志物相关的免疫细胞:分析 22 种免疫细胞发现,高、低风险组中 CD4 记忆 T 细胞、活化 NK 细胞、M1 巨噬细胞和中性粒细胞的浸润水平存在显著差异。UPP1 与活化的 CD4 + T 细胞显著正相关,NUDT1 与单核细胞呈负相关。高风险组中 CD274 和 PDCD1 等免疫检查点相关基因的表达显著更高。
高、低风险组的突变情况:错义突变是生物标志物中最常见的突变类型,单核苷酸多态性(Single nucleotide polymorphisms,SNPs)占比最大,C - T 转换最为普遍。高风险组 TMB 高于低风险组,且两组基因的共发生和相互排斥模式存在差异。蛋白表达分析显示,ADSL 在肿瘤组织中的表达高于正常组织。
GBM 组中生物标志物的表达升高:在 TCGA - GBM 和 GSE147352 数据集中,肿瘤组织中 4 种生物标志物(NUDT1、CDA、UPP1 和 ADSL)的表达水平显著高于相邻组织。RT - qPCR 结果也表明 GBM 组生物标志物表达水平显著高于对照组。
研究通过生物信息学方法构建了与 GBM 中核苷酸代谢相关的预后模型,识别出 NUDT1、CDA、UPP1 和 ADSL 这 4 个关键基因,它们在 GBM 的发生发展、免疫微环境和预后中发挥着重要作用。同时发现 MGMT 启动子状态、IDH 突变状态和风险评分是 GBM 的独立预后因素。
该研究从核苷酸代谢角度深入剖析 GBM,为理解 GBM 的发病机制提供了新视角,有助于发现潜在的治疗靶点,为 GBM 的精准治疗和预后判断提供了有价值的参考。然而,研究也存在一定局限性。一方面,初始生物信息学分析依赖公开数据集,虽有 RT - qPCR 验证,但缺乏细胞和动物模型等体外和体内研究的深度验证,可能影响研究结果的可靠性;另一方面,样本量有限,难以全面代表总体情况,限制了研究成果在临床实践中的应用。
未来研究可进一步扩大样本量,收集不同地区、不同临床特征的患者样本,提高研究的代表性;加强体外和体内实验,如细胞实验和动物模型实验,深入验证研究结果,从而更精准地完善分析结果,推动该模型在临床个性化治疗策略制定中的应用,为 GBM 患者带来新的希望。
生物通微信公众号
知名企业招聘