《Metabolomics》:A machine learning?enhanced serum metabolomics model for non?invasive detection of gastric cancer
编辑推荐:
背景:胃癌(Gastric Cancer, GC)是全球癌症相关死亡的主要原因之一,早期检出对提高生存率至关重要。目前的非侵入性生物标志物在早期阶段缺乏足够灵敏度,亟需更精准的诊断工具。方法:研究人员采用液相色谱-串联质谱(Liquid Chromatogra
背景:胃癌(Gastric Cancer, GC)是全球癌症相关死亡的主要原因之一,早期检出对提高生存率至关重要。目前的非侵入性生物标志物在早期阶段缺乏足够灵敏度,亟需更精准的诊断工具。方法:研究人员采用液相色谱-串联质谱(Liquid Chromatography-Mass Spectrometry, LC-MS)对151例GC患者和103例健康对照者的血清样本进行非靶向代谢组学检测,应用包含LASSO回归、随机森林(Random Forest, RF)和决策树(Decision Tree, DT)的机器学习(Machine Learning, ML)流程进行特征筛选与模型构建,评估十种ML分类器并以交叉验证和测试集性能选定最终模型;采用SHAP(SHapley Additive exPlanations)分析评估模型可解释性,通过决策曲线分析(Decision Curve Analysis, DCA)评估临床效用。结果:从检测到的2136种代谢物中筛选出核糖胸苷(ribothymidine, rT)、phytocassane B(PCB)、依那普利(enalapril, ENP)和芥子醛(sinapaldehyde, SA)四种核心代谢物组成诊断组合,随机森林模型在测试集上受试者工作特征曲线下面积(Area Under the ROC Curve, AUC)达0.97,显著优于传统生物标志物;通路分析显示脂质和氨基酸代谢失调,模型校准良好且较"全部治疗"或"全部不治疗"策略提供更优净临床获益。结论:本研究建立并内部验证了基于四种血清代谢物特征的高性能代谢组学机器学习模型用于早期GC检测,为非侵入性、可解释的胃癌诊断策略提供了可行思路与潜在临床应用价值。
《Metabolomics》刊载的该研究针对胃癌(Gastric Cancer, GC)早期无创诊断手段敏感性不足的临床痛点,指出传统肿瘤标志物如癌胚抗原(Carcinoembryonic Antigen, CEA)和糖类抗原19-9(Carbohydrate Antigen 19-9, CA19-9)对早期GC检出率偏低,而非靶向代谢组学结合机器学习(Machine Learning, ML)有望从高维数据中挖掘精简、特异的生物标志物组合。研究人员采集治疗初治GC患者及健康对照者血清,通过液相色谱-高分辨质谱(Liquid Chromatography-High Resolution Mass Spectrometry, LC-HRMS)获取代谢谱,经差异分析初筛显著差异代谢物后,采用LASSO回归→随机森林(Random Forest, RF)特征重要性排序→决策树(Decision Tree, DT)筛选的三步ML特征选择锁定4种核心代谢物,系统比较10种ML分类算法性能并以加权综合评分选定最终模型,辅以SHAP(SHapley Additive exPlanations)分析和决策曲线分析(Decision Curve Analysis, DCA)分别阐明特征贡献与临床净获益。结果证实所建RF模型测试集AUC达0.97,优于单一代谢物及传统蛋白标志物,KEGG富集提示GC中存在脂质与氨基酸代谢重编程。研究表明血清四代谢物签名联合ML建模可实现高精度、可解释的非侵入性GC判别,为早诊工具开发提供了新依据。
为开展研究,研究人员自山东肿瘤医院招募151例初治GC患者(按第8版AJCC TNM分期)及103例无消化道疾病及恶性肿瘤史的健康对照组成发现队列;采集外周血分离血清,经甲醇沉淀蛋白后上机进行UPLC-HRMS正、负离子模式全扫描及数据依赖二级质谱(MS2),原始数据用XCMS做峰检测/对齐/校正并用CAMERA标注同位素与加合物,剔除缺失率高者后以K最近邻(k-Nearest Neighbor, KNN)填补、概率商归一化(Probabilistic Quotient Normalization, PQN)标准化;差异代谢物筛选标准为q<0.05、变量投影重要性(Variable Importance in Projection, VIP)≥1、倍数变化(Fold Change, FC)>1.15或<0.85(二次严格过滤取FC≥2或≤0.5得131种),经KEGG富集分析;对131种代谢物依次行LASSO回归(10折交叉验证)筛选→RF均值精度下降排序→DT筛选获4核心代谢物,以此构建朴素贝叶斯、K近邻(K-Nearest Neighbor, KNN)、逻辑回归(Logistic Regression, LR)、DT、RF、人工神经网络(Artificial Neural Network, ANN)、梯度提升(Gradient Boosting Decision Tree, GBDT)、LightGBM、AdaBoost、极端梯度提升(eXtreme Gradient Boosting, XGB)共10种分类器,按7∶3划分训练/测试集,GridSearchCV调参,以交叉验证AUC(CV-AUC)、测试集AUC(Test/AUC)、精确率–召回曲线下面积(Precision-Recall AUC, PR-AUC)、F1分数、Kappa及加权综合得分遴选最优模型;最后用SHAP值解释特征贡献、校准曲线与DCA评估可靠性及临床效用。
研究结果如下:
3.1 Reprogrammed serum metabolic landscape in GC patients
研究人员从GC与健康对照血清中共检出2136种代谢物,其中578种显著差异(316上调、262下调),主成分分析(Principal Component Analysis, PCA)可见两组总体分离趋势,偏最小二乘判别分析(Partial Least Squares-Discriminant Analysis, PLS-DA)具区分力;KEGG富集获得亚油酸代谢、花生四烯酸代谢、苯丙氨酸代谢、过氧化物酶体增殖物激活受体(Peroxisome Proliferator-Activated Receptor, PPAR)信号通路及类固醇激素合成等20条显著富集通路,反映GC相关的脂质与氨基酸代谢扰动;对131种严格差异代谢物做Mfuzz模糊聚类得到4个动态变化簇。
3.2 ML-based screening and diagnostic evaluation of serum metabolite biomarkers
经LASSO回归将131种候选压缩至18种,RF按重要性排序后由DT最终确定核糖胸苷(ribothymidine, rT)、phytocassane B(PCB)、依那普利(enalapril, ENP)和芥子醛(sinapaldehyde, SA)为核心标志物;GC组中rT与ENP水平降低,PCB与SA升高;各单体ROC曲线下面积分别为PCB 0.8809、ENP 0.8304、rT 0.7873、SA 0.7833,提示其单独及联合判别潜力。
3.3 Development and comparative performance of ML models
基于四代谢物构建10种ML分类器,初筛保留交叉验证AUC≥0.97的6种(LR、RF、GBDT、XGB、LGBM、AdaBoost),再于独立测试集比较Test/AUC、PR-AUC、F1及Kappa,经加权综合评分(AUC×0.35+PR×0.25+F1×0.20+Kappa×0.20)并结合交叉验证稳定性(Composite Score=0.30×CV-AUC+0.70×TestScore),随机森林表现最优——测试集AUC 0.97(95% CI: 0.9474–0.9943),平均精确度(Average Precision, AP)0.9760,准确、灵敏、特异及校准均良好,被选为最终模型。
3.4 RF model performance and interpretability
最终RF模型测试集ROC-AUC为0.97,校准曲线显示预测概率与观测结果吻合,PR曲线表明在不平衡条件下性能稳健;DCA显示其在较宽阈值概率内较"全员干预"与"全员不干预"提供更大净临床获益;SHAP汇总图确认PCB、ENP、SA、rT为最主要正向贡献特征,赋予模型生物学可解释性。
讨论部分总结:研究人员指出本研究整合非靶向血清代谢组学与ML构建了含rT、PCB、ENP、SA四代谢物的GC无创诊断模型,RF测试集AUC达0.97,优于传统蛋白标志物,证明GC系统性代谢重编程可被代谢谱捕获且ML驱动特征选择能提炼精简而强效的诊断签名;逐步特征筛选策略(LASSO→RF→DT)在降低过拟合风险同时提升模型透明度,加权综合评分客观遴选模型,SHAP解析特征贡献有助于临床接受度;所鉴定代谢物分别可能涉及RNA/线粒体功能改变(rT)、饮食/微生物或应激反应(PCB)、肾素–血管紧张素系统失调参与肿瘤血管生成(ENP降低)及氧化应激/苯丙氨酸代谢紊乱(SA),与富集到的脂质相关通路呼应;相比CEA与CA19-9早期灵敏度不足及常规生化参数特异性低,该代谢签名具更高判别力,DCA提示潜在临床适用价值。局限性含单中心病例可能影响外推性、部分代谢物为推定注释(MSI level 2)缺标准品确证、病例–对照设计无法推断时序因果,需多中心外部验证与前瞻性队列进一步评估。结论翻译:本研究开发并内部评价了基于四种血清代谢物特征的、高性能代谢组学机器学习模型用于早期胃癌检测,该方法提供了一种具有前景临床潜力的非侵入性、可解释诊断策略。