基于SEER数据库和中国数据的亚洲胶质母细胞瘤患者机器学习生存预测模型的开发与验证

【字体: 时间:2025年08月25日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对亚洲胶质母细胞瘤(GBM)患者预后评估难题,通过整合SEER数据库1207例和中国172例患者数据,采用8种机器学习算法构建了总体生存(OS)和癌症特异性生存(CSS)预测模型。研究发现年龄、肿瘤病史、组织学类型、手术和化疗是独立预后因素,其中广义增强回归(GBM)算法模型表现最优,6个月OS预测AUC达0.837。该模型为临床个性化治疗决策提供了可靠工具,发表于《Scientific Reports》。

  

胶质母细胞瘤(GBM)作为最具侵袭性的原发性脑肿瘤,每年每10万人中约有4例发病,患者中位生存期仅15个月。尽管标准治疗方案包括手术切除联合放化疗,但预后仍不理想。尤其对于亚洲人群,现有预后模型多基于西方数据,缺乏针对该人群的特异性预测工具。传统统计方法难以处理临床数据中的复杂非线性关系,而机器学习(ML)技术在模式识别和预测分析方面展现出独特优势。

为填补这一空白,Denglin Li、Luxin Zhang等研究者开展了一项突破性研究。团队从美国SEER数据库中筛选1207例亚洲GBM患者数据,按7:3比例分为训练集(n=845)和验证集(n=362),并纳入中国大连医科大学附属第二医院的172例患者作为测试集。研究采用逆概率处理加权(IPTW)控制混杂因素,通过单多变量Cox回归确定预后因素,并系统比较了包括随机生存森林(RSF)、Lasso Cox、CoxBoost等8种ML算法的预测效能。

关键技术方法包括:1) 从SEER数据库提取2010-2021年亚洲GBM患者数据,纳入标准涵盖ICD-O-3编码9440/3-9445/3的经病理确诊病例;2) 使用R 4.4.2软件实施机器学习建模,评估指标包括时间依赖性ROC曲线(AUC)、校准曲线和决策曲线分析(DCA);3) 通过Kaplan-Meier生存分析和log-rank检验验证模型风险分层能力。

基线特征

SEER组与测试组在年龄、肿瘤病史和组织学类型分布上存在显著差异(p<0.05),提示数据异质性。

OS风险因素识别

多变量分析显示:年龄>60岁(HR=1.77)、胶质肉瘤(HR=1.78)与不良预后相关,而IDH突变型GBM(HR=0.51)和根治性手术(HR=0.52)则显著改善生存。测试组中肿瘤病史患者死亡风险升高3.7倍(p=0.003)。

CSS风险因素识别

局部病变(HR=0.69)和全脑放疗(HR=0.76)具有保护作用,远处转移(HR=2.29)则显著增加肿瘤特异性死亡风险。IPTW校正后,肿瘤病史仍保持独立预测价值(HR=1.93, p=0.001)。

机器学习模型表现

GBM算法在OS预测中展现最佳性能:训练集6/12/24个月AUC分别为0.837、0.809、0.750;测试集相应AUC达0.856、0.777、0.691。校准曲线显示预测与实际观察值高度一致,DCA证实其临床实用性。

讨论与意义

该研究首次建立基于临床数据的亚洲GBM患者ML预测模型,其性能优于传统Nomogram模型。值得注意的是,肿瘤病史这一常被忽视的因素被证实是独立预后指标,可能与治疗耐受性降低或基因组不稳定性相关。GBM算法通过迭代决策树有效捕捉变量间复杂交互,其优越性在时间依赖性AUC分析中得到充分验证。

研究局限性包括回顾性数据固有的选择偏倚和单中心测试集样本量不足。未来可整合影像组学、基因组学等多模态数据进一步提升预测精度。该模型为亚洲GBM患者的精准医疗提供了重要工具,有助于临床医生制定个体化治疗方案,优化医疗资源配置。

这项发表于《Scientific Reports》的研究标志着GBM预后评估进入人工智能辅助决策的新阶段,为改善亚洲患者生存结局开辟了创新路径。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号