利用跨队列转录组整合和机器学习方法对胶质母细胞瘤进行可解释的预后建模

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Biochemical and Biophysical Research Communications》：Interpretable Prognostic Modeling of Glioblastoma Using Cross-Cohort Transcriptome Integration and Machine Learning Approaches

【字体：大中小】 时间：2026年02月14日 来源：Biochemical and Biophysical Research Communications 2.2

编辑推荐：

　　胶质母细胞瘤预后模型构建及可解释性分析。本研究整合TCGA和GEO多组学数据，通过自动机器学习筛选出22基因预后模型，利用SHAP分析揭示关键基因（UBE2W、EID1、HS2ST1）对风险预测的贡献，验证其在独立队列中C-index达0.72，并揭示高/低风险组免疫微环境差异及化疗敏感性特征，为个性化治疗提供新生物标志物。

作者：陈晓华、赵志龙、梁世民、杜南迪、盛薇薇、沈杰、陈晓华

中国河南省洛阳市洛河中央医院神经科，462000

摘要

胶质母细胞瘤（GBM）是一种侵袭性脑肿瘤，由于显著的分子异质性，患者的预后差异很大。其预后仍然非常糟糕（中位生存期约为15个月），现有的预后模型往往像“黑箱”一样，缺乏可解释性，限制了临床应用。迫切需要可解释的预后工具来更好地对GBM患者进行分层。本研究进行了跨队列、跨平台的转录组数据整合（TCGA RNA-seq和GEO微阵列），并结合了推断的免疫基因组特征，以捕捉GBM的复杂性。通过自动机器学习（AutoML）流程测试了100多种算法组合，构建了一个最佳的生存预测模型。最终模型是一个包含22个基因的签名，应用SHAP（SHapley Additive Explanations）分析来解释每个基因对风险的贡献。模型识别出的关键基因（如UBE2W、EID1、HS2ST1）通过qRT-PCR和Western blot得到了验证，证实了它们在GBM细胞系中的表达失调。该22基因模型的一致性指数约为0.72，并在独立队列（TCGA训练和GEO验证）上得到了验证，显示出稳健的性能。该模型能够有效地将患者分为高风险和低风险组，两组之间的生存差异显著。高风险肿瘤与免疫细胞富集但具有免疫逃逸特性的微环境相关，表现为免疫抑制细胞浸润增加和TIDE评分升高（表明免疫逃逸）。相比之下，低风险患者的免疫特征更为有利，他们的肿瘤被认为对多种化疗药物更敏感。这种基于可解释转录组的综合预后模型可以作为GBM风险分层的宝贵工具，并通过突出潜在靶点来指导治疗决策。它不仅提高了预后预测的准确性，还发现了新的预后生物标志物，为胶质母细胞瘤的个性化治疗和临床转化带来了希望。

引言

胶质母细胞瘤（GBM）是成人中最常见且最具侵袭性的原发性恶性脑肿瘤，其特征是弥漫性浸润性生长和对标准治疗的抵抗性^[1]。尽管进行了最大范围的手术切除后辅以替莫唑胺化疗和放疗，但其预后仍然很差^[2]。总体中位生存期仅为14-17个月，五年生存率低于5%^[3]，这凸显了改进预后工具和治疗的迫切需求。由于肿瘤内和肿瘤间的显著异质性，GBM的临床管理极具挑战性，存在多种亚克隆群体和随时间演变的复杂肿瘤微环境^[4]。这种分子和细胞层面的复杂性导致了患者预后的差异，并限制了“一刀切”治疗手段的有效性。

最近的跨队列分析在解析GBM的分子基础方面发挥了重要作用。像癌症基因组图谱（TCGA）这样的大型联盟对基因组、转录组和表观基因组数据进行了综合分析，定义了不同的GBM亚型（如经典型、间充质型、神经源性型）和关键驱动突变（EGFR、NF1、PDGFRA/IDH1突变）^[5]。这些研究表明，GBM的致癌机制涉及多个通路的异常，包括受体酪氨酸激酶信号传导、p53和RB肿瘤抑制网络以及代谢和免疫调节回路^[6]。通过整合高维组学数据，研究人员可以识别出单一模式分析可能错过的候选生物标志物和关键通路^[7]。例如，将基因表达与表观遗传和蛋白质组学特征结合起来，揭示了与治疗反应相关的GBM内的预后分子特征和亚群^[8]。这种跨队列整合提供了GBM的全面分子图谱，为更精确的预后建模和治疗靶向奠定了基础。

同时，机器学习（ML）已成为肿瘤学预后建模的强大工具，包括GBM^[9]。传统的预后模型通常依赖于少数临床或分子标志物（如年龄、体能状态或单个基因的改变），但ML方法可以利用数百个特征来构建风险预测模型^{[10],[11]。从Cox比例风险回归和随机生存森林到先进的深度学习模型，各种算法已被应用于预测GBM患者的生存情况。例如，早期使用TCGA数据的研究发现了与GBM患者生存相关的基因表达特征^[12]。研究人员构建了第一个多基因GBM预后模型，证明整合的基因特征可以独立于传统因素对患者进行分层^[10]。最近，ML和深度学习模型显示出更高的准确性；一项研究使用深度神经网络在转录组数据上报告了一致性指数（C指数）>0.80^[13]。然而，许多ML模型的一个公认缺点是它们的“黑箱”性质——缺乏可解释性。如果模型无法解释为什么患者会被预测为预后不良或良好，临床医生自然会对其预测结果持谨慎态度。模型输出的缺乏明确解释会降低临床信心，阻碍ML工具的临床应用^[11]。
为了解决这个问题，越来越多的研究关注可解释的机器学习在预后建模中的应用。例如SHAP方法可以为每个特征（如基因）分配一个重要性值，从而以人类可理解的方式阐明模型的决策逻辑^[14]。在GBM的背景下，可解释的ML有助于识别驱动风险的关键分子特征，这些特征可能在生物学或临床上具有重要意义。例如，最近的一项研究结合了集成学习和SHAP来预测GBM的生存情况，并能够确定关键的预后因素，提高了模型的透明度^[15]。鉴于这些进展，我们的研究进行了跨队列、跨平台的转录组整合，并结合ML算法构建了一个准确且可解释的预后模型。在方法上，我们实施了全面的机器学习框架，测试了100多种算法组合以确定最佳模型，并应用SHAP分析来揭示驱动模型风险预测的基因。在生物学上，我们的综合方法能够发现不同分子层中的新预后生物标志物。在这项工作中，我们强调了模型中出现的几个关键基因，并提供了它们在GBM进展中的相关性的证据。通过使用可解释的跨队列ML模型，我们旨在弥合复杂计算预测与生物学上有意义的见解之间的差距，最终识别出可能指导GBM患者个性化治疗的候选预后因素。}

数据收集

使用R语言中的sva包（https://bioconductor.org/packages/release/bioc/html/sva.html）合并了TCGA_GBM_TPM_11A和GSE7696样本，以消除批次效应，并使用PCA分析观察批次消除结果（见补充图1）。

胶质母细胞瘤患者的RNA测序数据及其相应的临床信息来自癌症基因组图谱（TCGA，https://portal.gdc.cancer.gov/）。共纳入了391个样本，其中386个为肿瘤样本

差异表达和富集分析结果

数据标准化后（图1A），使用|log2倍数变化| > 1的阈值，共鉴定出76个上调基因和139个下调基因。这些DEGs随后在火山图中进行了可视化（图1B）。

然后进行了GO和KEGG富集分析，以评估功能通路差异。在生物过程水平上，DEGs在突触后膜电位调节和氯离子转运通路中显著富集

鉴定出的预后基因的生物学意义

我们可解释方法的一个主要优势是能够突出驱动预后预测的关键基因。在最终模型中的22个基因中，三个枢纽基因——UBE2W、EID1和HS2ST1——因其较高的SHAP值贡献以及在GBM组织中的一致性失调而特别值得注意。UBE2W（泛素连接酶E2W）是泛素-蛋白酶体系统的一个组成部分，在蛋白质周转和细胞周期控制中起着基础性作用^[16]

结论

总之，我们开发了一个基于可解释转录组的综合预后模型，该模型具有较高的预测准确性（C指数约为0.72），并突出了多个生物学上显著的基因。该模型在不同队列中的表现得到了验证，证明了其稳健性，而SHAP分析的使用提供了特定分子特征如何影响患者风险的清晰解释。识别出的枢纽基因如UBE2W、EID1和HS2ST1及其

CRediT作者贡献声明

陈晓华：撰写——审阅与编辑、撰写——初稿、监督、调查、正式分析、数据管理、概念化。梁世民：撰写——初稿、可视化、验证、软件开发、项目管理、概念化。赵志龙：撰写——审阅与编辑、撰写——初稿、可视化、验证、项目管理、概念化。陈敏：撰写——审阅与编辑、撰写——初稿、资源管理、调查

数据可用性

本研究中分析的TCGA和GEO数据集是公开可用的。用于数据加工和模型构建的脚本和关键代码可通过第2.11节（数据和代码可用性）提供的GitHub资源获取，或根据合理要求提供。

利益冲突

作者声明，本研究是在没有任何可能被视为潜在利益冲突的商业或财务关系的情况下进行的。

资助

本研究得到了河南省高等教育机构关键科学研究项目（21B320003）、洛河医学院科学研究和创新项目（2022KJZD04；KJCXYFY202405、KJCXYFY202409、KJCXYFY202411）以及洛河中央医院博士研究启动基金（LHZXYY-0708）的支持。

利益冲突声明

作者声明没有需要声明的利益冲突

热点排行

新闻专题

联系信箱：

粤ICP备09063491号