基于大规模机器学习与多组学数据预测低级别胶质瘤患者对替莫唑胺的化疗反应
【字体:
大
中
小
】
时间:2025年10月01日
来源:BMC Methods
编辑推荐:
为解决低级别胶质瘤(LGG)患者替莫唑胺(TMZ)化疗反应预测精度不足的问题,研究人员开展了结合多组学数据与机器学习的预测模型研究。结果表明,基于miRNA的XGBoost模型预测性能最优(MCC=0.447),显著优于传统MGMT甲基化标志物(MCC=0.331)。该研究为TMZ精准用药提供了新策略,对改善神经肿瘤临床治疗决策具有重要意义。
在神经肿瘤领域,低级别胶质瘤(Low-Grade Glioma, LGG)虽然相较于高级别胶质瘤进展较慢,但其潜在的恶性转化风险使得初始治疗策略的选择尤为关键。替莫唑胺(Temozolomide, TMZ)作为LGG的一线化疗药物,虽然能延长患者生存期,但其疗效存在显著个体差异,且伴随骨髓抑制、恶心呕吐等毒副作用。目前临床依赖O6-甲基鸟嘌呤-DNA甲基转移酶(MGMT)启动子甲基化状态作为预测标志物,但存在假阳性率高、动态变化等局限性。因此,开发更精准的预测模型对实现个体化治疗、避免无效化疗具有重要意义。
近日发表于《BMC Methods》的研究通过整合多组学数据与机器学习算法,系统评估了TMZ反应预测模型的表现。该研究从癌症基因组图谱(TCGA)获取109例接受TMZ治疗的LGG患者数据,涵盖mRNA表达、miRNA表达、isomiR表达、DNA甲基化、拷贝数变异(CNV)六类组学数据及临床信息。采用12种机器学习算法(包括CART、LGBM、XGBoost、随机森林RF、逻辑回归LR和支持向量机SVM及其最优模型复杂度OMC变体),通过五重嵌套交叉验证和Bootstrap偏差校正进行性能评估。
关键技术方法包括:从TCGA数据库获取多组学与临床数据;使用嵌套交叉验证和Bootstrap偏差校正评估模型;采用OMC特征选择策略优化模型复杂度;通过SHAP分析识别关键miRNA特征;利用贝叶斯优化进行超参数调优。
基于miRNA数据的XGBoost模型表现最佳(中位MCC=0.447),显著优于自动化机器学习平台JADBio(MCC=0.250)。回归模型因阈值划分偏差等问题性能普遍低于分类模型。
比较MGMT启动子三个基因组区域(甲基化岛、DMR2区和相关CpG位点)的预测性能,最佳miRNA模型(MCC=0.447)均优于MGMT最佳模型(DMR2-RF, MCC=0.331)。直接对比响应概率显示ML模型对响应者/非响应者的区分能力更强(p=2.68×10-12)。
通过特征重要性分析和差异表达验证,鉴定出hsa-miR-7-2、hsa-miR-6513、hsa-miR-376c、hsa-miR-335、hsa-miR-204和hsa-let-7f-1与TMZ耐药正相关。SHAP分析表明高表达这些miRNA可能通过调控DNA修复(如miR-335靶向BRCA1)或肿瘤信号通路促进耐药。
融合MGMT与miRNA的集成模型仅轻微提升预测性能(MCC从0.447→0.458)。但加入年龄、Karnofsky评分等临床变量后,甲基化+临床数据的LR-OMC模型达到最高MCC(0.482),显著优于纯组学模型(p=1.90×10-7)。
Bootstrap偏差校正显示原始评估高估模型性能(如miRNA-XGB的MCC从0.447降至0.280),强调在有限样本中评估多模型时需校正选择偏差。
研究结论强调,基于miRNA的机器学习模型可显著提升TMZ反应预测精度,突破传统MGMT标志物的局限。鉴定的六个miRNA标志物为耐药机制研究提供新方向,而临床特征的整合进一步强化模型实用性。尽管需独立临床队列验证,该研究为LGG精准治疗提供了多组学机器学习框架,推动神经肿瘤领域向数据驱动决策转型。
讨论部分指出,本研究首次系统评估多组学数据与机器学习在LGG化疗预测中的效能,但存在样本量有限、缺乏实验验证等限制。未来需扩大样本、结合单细胞测序解析肿瘤异质性,并通过功能实验验证候选miRNA的调控机制,最终推动模型临床转化。
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号