《Food Science & Nutrition》:Interpretable Machine Learning for Predicting Metabolic Syndrome–Kidney Stone Disease Comorbidity: The Role of Dietary Micronutrients
编辑推荐:
摘要:本研究旨在基于膳食微量营养素摄入量,开发可解释机器学习(model,ML)模型以预测代谢综合征–肾结石病(metabolic syndrome–kidney stone disease,MetS–KSD)共病风险。研究人员使用2007–2018年美国国家
摘要:本研究旨在基于膳食微量营养素摄入量,开发可解释机器学习(model,ML)模型以预测代谢综合征–肾结石病(metabolic syndrome–kidney stone disease,MetS–KSD)共病风险。研究人员使用2007–2018年美国国家健康与营养检查调查(National Health and Nutrition Examination Survey,NHANES)数据,纳入54个候选特征(含膳食变量及人口学协变量)。采用六类主流ML模型——随机森林(Random Forest)、极端梯度提升树(eXtreme Gradient Boosting,XGBoost)、轻量梯度提升机(Light Gradient Boosting Machine,LightGBM)、k近邻(k-nearest neighbors,KNN)、支持向量机(support vector machine,SVM)及朴素贝叶斯(Na?ve Bayes),以受试者工作特征曲线下面积(area under the receiver operating characteristic curve,AUC?ROC)、精确率–召回率曲线下面积(area under the precision–recall curve,AUC?PR)、准确率(accuracy)、F?beta分数(F?beta score)、灵敏度(sensitivity)和特异度(specificity)进行综合评估。采用SHapley Additive exPlanations(SHAP)及局部可解释模型无关解释(Local Interpretable Model?agnostic Explanations,LIME)增强模型可解释性。共纳入4936名参与者,经抽样权重校正后约代表4,597,435名美国成人患有MetS–KSD共病。经方差膨胀因子(variance inflation factor,VIF)分析及Boruta特征选择后保留33个特征,含25种膳食微量营养素和8个人口学变量。联合人口学与膳食变量建模时,随机森林表现最优(AUC?ROC=0.958;AUC?PR=0.961);仅用膳食微量营养素建模时,XGBoost表现最优(AUC?ROC=0.956;AUC?PR=0.960)。SHAP与LIME分析确定番茄红素(lycopene)、添加维生素B12(added vitamin B12)、镁(magnesium)、膳食纤维(dietary fiber)、可可碱(theobromine)及维生素K(vitamin K)为关键贡献特征,其重要性排序随人口学背景变化。补充敏感性分析进一步支持模型稳健性及基于合成少数类过采样技术(Synthetic Minority Over?sampling Technique,SMOTE)的不平衡校正有效性。结果表明,可解释机器学习可为MetS–KSD共病的营养风险分层提供有用框架,但仍需在独立人群中进行外部验证。
《Food Science》刊载论文解读:基于膳食微量营养素预测代谢综合征–肾结石病共病的可解释机器学习研究
一、研究背景与立题依据
肾结石病(kidney stone disease,KSD)全球患病率近10%且五年复发率接近50%,美国每年相关医疗支出超100亿美元。代谢综合征(metabolic syndrome,MetS)及其诱发的慢性低度炎症(chronic low?grade inflammation,CLGI)状态会显著升高结石形成风险——MetS核心组分(胰岛素抵抗、肥胖、血脂异常、高血压)可引起尿pH降低、高钙尿、高尿酸尿及低枸橼酸尿等尿液组成异常,共同促进晶体成核、生长与滞留。现有研究多聚焦单一营养素或单病种结局,传统线性统计难以捕捉膳食成分间及营养–代谢表型间的复杂非线性交互。因此,研究人员基于美国国家健康与营养检查调查(National Health and Nutrition Examination Survey,NHANES) 2007–2018数据,开发并内部评价可解释机器学习(model,ML)模型,系统识别膳食微量营养素对MetS–KSD共病的贡献,以期为营养风险分层提供依据。
二、主要关键技术方法
研究人员采用NHANES 2007–2018全国代表性队列,排除无法判定MetS或KSD状态、缺失膳食微量营养素、教育程度及关键协变量(贫困收入比、体质指数BMI、吸烟及饮酒状态)者后最终纳入4936人。MetS按NCEP?ATP III标准判定(满足腹型肥胖、高甘油三酯、低高密度脂蛋白胆固醇HDL?c、高血压、高血糖中≥3项),KSD按自我报告"曾患肾结石"判定。初筛54个特征(49个连续+5个分类),用自由度调整方差膨胀因子(variance inflation factor,VIF)剔除VIF>3的共线特征,再用Boruta算法(500次迭代)保留"Confirmed"特征。训练集用合成少数类过采样技术(Synthetic Minority Over?sampling Technique,SMOTE)处理类别不平衡,所有特征标准化。构建六种ML模型——随机森林(Random Forest)、轻量梯度提升机(LightGBM)、k近邻(k?nearest neighbors,KNN)、朴素贝叶斯(Na?ve Bayes)、支持向量机(support vector machine,SVM)、极端梯度提升树(eXtreme Gradient Boosting,XGBoost),以重复十折交叉验证结合网格搜索调参,以AUC?ROC为主要指标综合评估AUC?PR、准确率、F?beta分数、灵敏度、特异度。用SHapley Additive exPlanations(SHAP)和局部可解释模型无关解释(Local Interpretable Model?agnostic Explanations,LIME)做全局与局部解释,另做精简特征(前15位SHAP均值)及最小绝对收缩与选择算子(least absolute shrinkage and selection operator,LASSO)回归敏感性分析验证稳健性。
三、研究结果
3.1 Participant Characteristics by MetS–KSD Comorbidity(按MetS–KSD共病分组的参与者基线特征)
加权后约4,597,435名美国成人患MetS–KSD共病,平均年龄55.97岁。与共病阴性组比,共病组蛋白质、烟酸(niacin)、磷(phosphorus)、镁(magnesium)、硒(selenium)摄入量显著更低(p<0.05)。
3.2 Feature Selection for Machine?Learning Models(机器学习模型的特征选择)
VIF剔除21个共线特征,Boruta确认剩余33个特征(25种膳食微量营养素+8个人口学变量)均有贡献。
3.3 Construction and Evaluation of Machine?Learning Models(机器学习模型的构建与评价)
联合人口学+膳食微量营养素建模时,随机森林最优(AUC?ROC=0.958,AUC?PR=0.961,准确率0.907,灵敏度0.985);仅用膳食微量营养素建模时,XGBoost最优(AUC?ROC=0.956,AUC?PR=0.960,准确率0.896,特异度0.871)。各模型间性能差异均有统计学意义(p<0.001)。未平衡数据训练的模型AUC?ROC仅0.511–0.565,证实SMOTE有效提升判别力与分类均衡性。
3.4 Interpretation of Dietary Micronutrients Importance Using SHAP and LIME(用SHAP和LIME解释膳食微量营养素重要性)
联合模型中,番茄红素(lycopene,SHAP=0.0266)、添加维生素B12(added vitamin B12,0.0195)、锌(zinc,0.0136)、维生素C(vitamin C,0.0132)、镁(magnesium,0.0130)为最重要膳食贡献因子;仅膳食微量营养素模型中,镁、膳食纤维(dietary fiber)、可可碱(theobromine)、维生素K(vitamin K)、维生素B6(vitamin B6)贡献更突出。LIME显示个体预测受不同局部特征驱动,校准曲线表明两策略模型校准良好。
3.5 Sensitivity Analyses(敏感性分析)
取SHAP排名前15变量重建模型,随机森林联合模型AUC?ROC=0.937、AUC?PR=0.936,XGBoost纯膳食模型AUC?ROC=0.929、AUC?PR=0.943,性能接近全模型但复杂度大降。LASSO筛选子集重建模型性能相当,SHAP重要营养素与主要分析一致,特征重要性模式稳定。
四、讨论总结与结论翻译
讨论指出MetS与KSD共享氧化应激、持续炎症激活及免疫失调机制,Mg、Se、烟酸等缺乏削弱抗氧化防御与矿物稳态,放大促结晶微环境。机器学习中随机森林适合异质流行病学数据,XGBoost擅长捕捉连续变量高维非线性关系,二者分别在不同特征组合下最优。SHAP重要营养素因是否纳入人口学变量而异,反映营养效应具代谢–炎症背景依赖性;镁跨模型稳定重要,提示其同时调控胰岛素受体敏感性、NF?κB炎症及钙晶格竞争的多节点作用。研究局限含NHANES横断面设计不能推断因果、KSD为自报、缺外部验证队列、严格入组可能致选择偏倚、未在其他人群验证泛化性。可解释ML可用于MetS人群的膳食风险初筛,识别高危者以指导个体化营养咨询与早期预防监测,但结论不应理解为单纯增补某微量营养素即可预防共病。
结论(原文翻译):
综上所述,研究人员基于全国代表性膳食微量营养素数据开发并内部评价了预测MetS–KSD共病的可解释机器学习模型。在所评估算法中,集成模型判别性能最强,且最优模型选择随特征构成不同而变化。可解释分析进一步阐明代谢–炎症背景下膳食微量营养素模式对共病风险的贡献。这些发现提示可解释机器学习可为MetS–KSD共病的营养风险分层提供有用框架,但仍需在独立人群中进行外部验证方可更广泛地应用。