基于机器学习的全氟化合物高暴露人群预测模型:韩国国家环境健康调查数据的创新应用

【字体: 时间:2025年09月29日 来源:International Journal of Hydrogen Energy 8.3

编辑推荐:

  本研究首次系统评估六种机器学习算法(RF/GBM/XGBoost/LR/SVM/KNN)预测全氟烷基物质(PFAS)高暴露人群的效能。通过构建包含64变量的全模型和10项基础指标的精简模型,实现82%的平衡准确度,证实机器学习在环境健康风险评估中的转化应用价值。

  
研究亮点
本研究首次采用多种机器学习算法(随机森林RF、梯度提升机GBM、极端梯度提升XGBoost、逻辑回归LR、支持向量机SVM和K近邻KNN)评估全氟烷基物质(PFAS)高暴露人群的预测效能。通过整合韩国国家环境健康调查(KoNEHS)第四周期数据,构建包含64个变量的全模型和10个基础健康指标的精简模型,揭示机器学习在环境健康风险评估中的突破性应用。
研究人群与数据收集
韩国国家环境健康调查(KoNEHS)由韩国国家环境研究所(NIER)于2009年启动,采用分层抽样方法选取15个样本区域。2018-2020年第四周期调查涵盖4,000名19岁以上参与者,通过问卷调查、体格检查和生物样本采集获取人口统计学特征、行为习惯及临床生物标志物数据。最终纳入3,852名血清PFAS检测完整的参与者,根据血清全氟辛酸(PFOA)和全氟辛烷磺酸(PFOS)浓度总和的中位数划分高/低暴露组。
基本特征与描述性统计
表2展示了研究人群的关键特征:高暴露组男性比例显著更高(47.0% vs 36.9%),年龄>45岁群体占比突出(68.8% vs 31.2%)。人体测量学指标显示高暴露组体重指数(BMI)、腰围和体脂率显著升高(p<0.001)。血液学参数中,血红蛋白(Hb)、红细胞计数(RBC)、血小板计数(PLT)和丙氨酸氨基转移酶(ALT)在高暴露组显著上升,而白细胞计数(WBC)呈现下降趋势。饮用水源与炊具使用模式也呈现组间差异。
讨论
本研究开创性地验证了机器学习算法预测PFAS高暴露群体的可行性。除KNN算法外,所有模型均展现优异性能(平衡准确度82%),其中XGBoost和GBM表现最为突出。年龄被确定为最强预测因子(SHAP值最高),45岁以上群体暴露风险显著提升。全模型中血清汞、血清铅浓度是关键预测指标,精简模型则主要依赖血红蛋白、ALT、红细胞和血小板计数。这些发现证实即使采用基础临床指标也能实现高效预测,为大规模人群筛查提供实用工具。
结论
机器学习技术显著提升了对PFAS暴露模式的理解与管理水平。精简模型仅用10项健康指标即可实现与复杂模型相当的预测效能,为资源有限的医疗场景提供可行解决方案。未来研究应扩展数据集并开展纵向追踪,以增强模型在不同人群中的适用性与准确性,最终为制定靶向性公共卫生干预措施提供科学依据。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号