基于机器学习的全氟化合物高暴露人群预测模型:韩国国家环境健康调查数据的创新应用
【字体:
大
中
小
】
时间:2025年09月29日
来源:International Journal of Hydrogen Energy 8.3
编辑推荐:
本研究首次系统评估六种机器学习算法(RF/GBM/XGBoost/LR/SVM/KNN)预测全氟烷基物质(PFAS)高暴露人群的效能。通过构建包含64变量的全模型和10项基础指标的精简模型,实现82%的平衡准确度,证实机器学习在环境健康风险评估中的转化应用价值。
本研究首次采用多种机器学习算法(随机森林RF、梯度提升机GBM、极端梯度提升XGBoost、逻辑回归LR、支持向量机SVM和K近邻KNN)评估全氟烷基物质(PFAS)高暴露人群的预测效能。通过整合韩国国家环境健康调查(KoNEHS)第四周期数据,构建包含64个变量的全模型和10个基础健康指标的精简模型,揭示机器学习在环境健康风险评估中的突破性应用。
韩国国家环境健康调查(KoNEHS)由韩国国家环境研究所(NIER)于2009年启动,采用分层抽样方法选取15个样本区域。2018-2020年第四周期调查涵盖4,000名19岁以上参与者,通过问卷调查、体格检查和生物样本采集获取人口统计学特征、行为习惯及临床生物标志物数据。最终纳入3,852名血清PFAS检测完整的参与者,根据血清全氟辛酸(PFOA)和全氟辛烷磺酸(PFOS)浓度总和的中位数划分高/低暴露组。
表2展示了研究人群的关键特征:高暴露组男性比例显著更高(47.0% vs 36.9%),年龄>45岁群体占比突出(68.8% vs 31.2%)。人体测量学指标显示高暴露组体重指数(BMI)、腰围和体脂率显著升高(p<0.001)。血液学参数中,血红蛋白(Hb)、红细胞计数(RBC)、血小板计数(PLT)和丙氨酸氨基转移酶(ALT)在高暴露组显著上升,而白细胞计数(WBC)呈现下降趋势。饮用水源与炊具使用模式也呈现组间差异。
本研究开创性地验证了机器学习算法预测PFAS高暴露群体的可行性。除KNN算法外,所有模型均展现优异性能(平衡准确度82%),其中XGBoost和GBM表现最为突出。年龄被确定为最强预测因子(SHAP值最高),45岁以上群体暴露风险显著提升。全模型中血清汞、血清铅浓度是关键预测指标,精简模型则主要依赖血红蛋白、ALT、红细胞和血小板计数。这些发现证实即使采用基础临床指标也能实现高效预测,为大规模人群筛查提供实用工具。
机器学习技术显著提升了对PFAS暴露模式的理解与管理水平。精简模型仅用10项健康指标即可实现与复杂模型相当的预测效能,为资源有限的医疗场景提供可行解决方案。未来研究应扩展数据集并开展纵向追踪,以增强模型在不同人群中的适用性与准确性,最终为制定靶向性公共卫生干预措施提供科学依据。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号