编辑推荐:
为探究环境化学物与高尿酸血症关联,研究人员基于 NHANES 数据,用 LASSO 筛选变量,构建 6 种机器学习模型。发现 XGB 模型性能最佳,确定 eGFR、BMI、Co 等为关键因素,为高尿酸血症风险预测提供新方法。
高尿酸血症作为全球范围内日益严峻的代谢性健康问题,其与环境化学物暴露的复杂关联一直是科学界关注的焦点。当前,多数研究仅聚焦单一类别环境化学物与高尿酸血症的关系,忽略了多种化学物共同暴露时的交互作用及复杂非线性关系,且传统统计方法难以应对高维环境化学数据。在此背景下,为全面揭示多环境化学物暴露与高尿酸血症的关联并建立有效预测模型,国内研究人员开展了相关研究。该研究成果发表在《Ecotoxicology and Environmental Safety》,为高尿酸血症的风险评估和防控提供了新视角。
研究人员基于美国国家健康与营养检查调查(NHANES)2011-2012 周期数据,纳入 1249 名美国成年人,检测其尿中 14 种重金属、7 种酚类、14 种邻苯二甲酸酯(PAEs)、10 种多环芳烃(PAHs)和 8 种砷化合物等环境化学物浓度,同时收集年龄、性别、体重指数(BMI)、估算肾小球滤过率(eGFR)等协变量数据。通过最小绝对收缩和选择算子(LASSO)回归筛选变量,结合合成少数过采样技术和 Tomek 链接(SMOTE-Tomek)处理数据不平衡问题,构建了随机森林(RF)、极端梯度提升(XGB)等 6 种机器学习模型,并利用 SHAP 值和部分依赖图(PDPs)进行模型解释。
研究结果
研究人群特征与模型性能
研究人群中高尿酸血症患病率为 20.58%,患者多为高龄、男性、高 BMI,且慢性肾病(CKD)、高血压、糖尿病等患病率更高。6 种模型中,XGB 模型表现最优,验证集曲线下面积(AUC)为 0.806,平衡准确率 0.762,F1 值 0.585,布里尔分数 0.133,测试集亦显示良好性能,表明其可靠性。
关键预测因子与变量关联
经 LASSO 筛选和变量选择,最终确定 eGFR、BMI、钴(Co)、单(2 - 乙基)己基邻苯二甲酸酯(MEHP)、单(3 - 羧丙基)邻苯二甲酸酯(MCPP)、单(2 - 乙基 - 5 - 羟基己基)邻苯二甲酸酯(MEHHP)、2 - 羟基萘(OHNa?)为关键预测因子。SHAP 分析显示,高 BMI、低 eGFR、高 MCPP、MEHHP、OHNa?水平与高尿酸血症正相关,而高 Co、MEHP 水平呈负相关。PDPs 进一步证实,Co 和 MEHP 在四分位距浓度范围内与高尿酸血症风险负相关,MCPP、MEHHP、OHNa?则呈正相关,且多化学物间存在交互作用,如 Co 与 MEHP 共同升高时预测风险降低,MCPP 与 MEHHP 协同升高则风险增加。
讨论与意义
该研究首次基于多环境化学物暴露构建高尿酸血症预测模型,发现 XGB 模型具有良好预测效能,且多种环境化学物通过不同机制影响高尿酸血症风险。PAEs 代谢物 MCPP、MEHHP 可能通过诱导氧化应激、干扰嘌呤代谢和肾功能促发高尿酸血症;PAHs 代谢物 OHNa?可通过 DNA 损伤和抑制尿酸转运蛋白 ABCG2 表达升高尿酸水平;Co 可能通过维持肾功能发挥保护作用。研究为识别高尿酸血症高危人群、揭示环境化学物致病机制提供了重要依据,但需注意尿中化学物浓度仅反映短期暴露,且模型需外部验证。
综上所述,该研究通过机器学习方法整合多环境化学物暴露数据,建立了高尿酸血症可解释预测模型,识别了关键影响因子及交互作用,为环境化学物暴露与代谢性疾病关联研究提供了新方法,对高尿酸血症的早期预警和环境风险防控具有重要科学意义。