基于NHANES多金属暴露数据的可解释机器学习模型预测前列腺癌风险

【字体: 时间:2025年07月28日 来源:Ecotoxicology and Environmental Safety 6.2

编辑推荐:

  本研究针对环境重金属暴露与前列腺癌(PCA)风险关联的研究空白,利用NHANES 2003-2018年8022例样本数据,通过8种机器学习模型筛选关键金属标志物。随机森林(RF)模型表现最优(AUC=0.869),首次发现尿铯(Cs)和尿锑(Sb)与PCA的正相关,并揭示血铅(Pb)、尿Sb和尿Cs的协同效应,为PCA的预防控制提供新策略。

  

环境污染与前列腺癌的关联一直是公共卫生领域的重要议题。随着工业化进程加速,重金属通过空气、水源和食物链进入人体,可能诱发多种恶性肿瘤。前列腺癌(PCA)作为男性第二大常见癌症,其发病机制复杂,除年龄、遗传等不可变因素外,环境重金属暴露的影响尚不明确。现有研究多聚焦单一金属,而现实中人体常同时暴露于多种金属,这些物质间可能存在的非线性交互效应,使得传统统计方法难以全面评估风险。

为突破这一局限,来自中国的研究团队基于美国国家健康与营养调查(NHANES)2003-2018年数据,首次将可解释机器学习(ML)技术应用于多金属暴露与PCA风险的关联研究。这项发表在《Ecotoxicology and Environmental Safety》的工作,通过创新性地整合多种算法与解释工具,不仅建立了高性能预测模型,更揭示了关键金属的剂量-效应关系和协同作用机制。

研究采用k-最近邻(KNN)和决策树算法处理缺失值,通过合成少数类过采样(SMOTE)与Tomek链接欠采样平衡数据。利用LASSO回归筛选出15种关键金属/矿物质后,比较了随机森林(RF)、逻辑回归(LR)等8种ML模型性能。最优模型RF通过置换特征重要性(PFI)、部分依赖图(PDPs)、SHAP值和反事实解释等4种可解释性方法,深入解析金属暴露与PCA的复杂关系。

3.1 研究人群特征
纳入8022名45岁以上男性,PCA患病率2.95%。加权分析显示年龄、种族、婚姻状况等12个变量与PCA显著相关,其中非西班牙裔黑人和白人患者占比最高(32.5% vs 52.7%)。

3.3 模型评价与选择
RF模型在测试集表现最优,准确率达72.84%,AUC为0.869。其F1分数(0.145)和G-mean(0.749)显示对不平衡数据的良好适应性。

3.4 机器学习解释
PFI分析识别出血Pb(重要性评分1.005)、尿Cs(1.002)等关键金属。PDPs显示:

  • 血Pb在0.449-29.964 μg/dL范围呈剂量依赖性正相关
  • 尿Cs(1.822-270.426 μg/L)和尿Sb(0.015-4.953 μg/L)同样显示风险递增
  • 血Cd(0.247-9.025 μg/L)则呈现负相关

协同效应分析发现,当血Pb>1.221 μg/dL、尿Cs>2.225 μg/L、尿Sb>0.018 μg/L时,PCA风险概率超过60%。SHAP分析证实老年患者(67岁)若血Pb降低至1.000 μg/dL,风险可降至0.45。

4.讨论
该研究首次报道尿Cs和Sb作为PCA新型风险标志物。血Pb的致癌机制可能与诱导活性氧(ROS)、干扰DNA修复有关;而血Cd的负相关可能反映其低剂量兴奋效应。Sb通过激活Nrf2-SLC7A11-GPX4通路抑制铁死亡,Cs则可能竞争性抑制钾离子通道影响前列腺功能。

研究创新性在于:

  1. 建立首个基于多金属暴露的PCA预测ML模型
  2. 发现尿Cs/Sb的新关联,拓宽环境致癌物认知
  3. 通过反事实解释实现个性化风险评估
    局限包括自报数据可能存在的偏倚,以及需要外部验证提升模型泛化性。

这项研究为环境医学与肿瘤预防的交叉领域提供了方法论范例,其开创性的可解释ML框架,不仅适用于重金属暴露研究,也为其他复杂环境-疾病关联研究提供了新思路。未来整合更多分子标志物和临床数据,有望构建更精准的环境致癌风险预警系统。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号