基于机器学习的全氟化合物高暴露人群预测模型：韩国国家环境健康调查数据的创新应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月29日 来源：International Journal of Hydrogen Energy 8.3

编辑推荐：

　　本研究首次系统评估六种机器学习算法（RF/GBM/XGBoost/LR/SVM/KNN）预测全氟烷基物质（PFAS）高暴露人群的效能。通过构建包含64变量的全模型和10项基础指标的精简模型，实现82%的平衡准确度，证实机器学习在环境健康风险评估中的转化应用价值。

研究亮点

本研究首次采用多种机器学习算法（随机森林RF、梯度提升机GBM、极端梯度提升XGBoost、逻辑回归LR、支持向量机SVM和K近邻KNN）评估全氟烷基物质（PFAS）高暴露人群的预测效能。通过整合韩国国家环境健康调查（KoNEHS）第四周期数据，构建包含64个变量的全模型和10个基础健康指标的精简模型，揭示机器学习在环境健康风险评估中的突破性应用。

研究人群与数据收集

韩国国家环境健康调查（KoNEHS）由韩国国家环境研究所（NIER）于2009年启动，采用分层抽样方法选取15个样本区域。2018-2020年第四周期调查涵盖4,000名19岁以上参与者，通过问卷调查、体格检查和生物样本采集获取人口统计学特征、行为习惯及临床生物标志物数据。最终纳入3,852名血清PFAS检测完整的参与者，根据血清全氟辛酸（PFOA）和全氟辛烷磺酸（PFOS）浓度总和的中位数划分高/低暴露组。

基本特征与描述性统计

表2展示了研究人群的关键特征：高暴露组男性比例显著更高（47.0% vs 36.9%），年龄>45岁群体占比突出（68.8% vs 31.2%）。人体测量学指标显示高暴露组体重指数（BMI）、腰围和体脂率显著升高（p<0.001）。血液学参数中，血红蛋白（Hb）、红细胞计数（RBC）、血小板计数（PLT）和丙氨酸氨基转移酶（ALT）在高暴露组显著上升，而白细胞计数（WBC）呈现下降趋势。饮用水源与炊具使用模式也呈现组间差异。

讨论

本研究开创性地验证了机器学习算法预测PFAS高暴露群体的可行性。除KNN算法外，所有模型均展现优异性能（平衡准确度82%），其中XGBoost和GBM表现最为突出。年龄被确定为最强预测因子（SHAP值最高），45岁以上群体暴露风险显著提升。全模型中血清汞、血清铅浓度是关键预测指标，精简模型则主要依赖血红蛋白、ALT、红细胞和血小板计数。这些发现证实即使采用基础临床指标也能实现高效预测，为大规模人群筛查提供实用工具。

结论

机器学习技术显著提升了对PFAS暴露模式的理解与管理水平。精简模型仅用10项健康指标即可实现与复杂模型相当的预测效能，为资源有限的医疗场景提供可行解决方案。未来研究应扩展数据集并开展纵向追踪，以增强模型在不同人群中的适用性与准确性，最终为制定靶向性公共卫生干预措施提供科学依据。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号