
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于可解释机器学习的中国焦化企业土壤苯并[a]芘含量动态预测与全生产周期管理创新研究
【字体: 大 中 小 】 时间:2025年07月28日 来源:Journal of Cleaner Production 9.8
编辑推荐:
针对工业场地土壤污染物长期精准预测难题,研究人员创新性地构建了融合全生产周期排放标准量化指标(FESQR)的可解释机器学习模型(RF算法R2=0.771),揭示了中国焦化企业2020-204年土壤苯并[a]芘(BaP)的累积规律,发现企业生产活动(贡献度24.4%)比自然环境因素对污染影响更显著,为工业土壤污染精准防控提供了科学依据。
随着工业化进程加速,焦化企业场地土壤中持久性有机污染物苯并[a]芘(Benzo[a]pyrene, BaP)的累积问题日益严峻。这种强致癌物质在土壤中难以降解,通过食物链威胁人类健康。然而,传统污染评估方法受限于样本采集成本,难以实现大规模企业土壤污染动态监测。更关键的是,现有研究多聚焦于污染是否超标的二元判断,缺乏对特定污染物浓度长期演变的精准预测能力,且鲜少将企业全生产周期管理政策量化纳入分析框架。
针对这一科学难题,中国某研究机构(根据CRediT声明推测为国内机构)的Tienan Ju等研究人员在《Journal of Cleaner Production》发表创新成果。研究团队开创性地将12维影响因素(含企业生产时间、产量、环境违规次数等动态指标)与全生产周期排放标准量化结果(FESQR)相结合,构建了可解释机器学习预测体系。通过比较随机森林(RF)、极端梯度提升(XGBoost)等4种算法,最终确定经粒子群动态优化的RF模型为最佳预测工具(R2=0.771,RMSE=2.1)。
关键技术方法包括:基于Python的多源地理数据爬取与清洗(含requests、BeautifulSoup库应用)、排放标准历史沿革量化建模(FESQR)、SHAP值驱动的特征重要性解析,以及融合动态参数优化的机器学习算法比较。研究样本覆盖中国焦化企业2010-2020年环境监测数据,通过文本挖掘整合了企业生产参数与自然环境因子。
数据爬取与整合
通过自动化数据采集技术,从公开环境平台获取企业经纬度坐标、生产信息等异构数据,经属性统一化处理后构建时空数据库。
焦化行业FESQR模型
系统梳理中国焦化企业2020年前执行的国标(GB)与地标(DB)排放限值,创新设计标准严格性量化指标,反映不同区域企业管理水平差异。
讨论
研究发现三个突破性结论:1)企业生产活动(贡献度24.4%)对BaP累积的影响远超日照、降雨等自然因素;2)2020年最高污染点位BaP达231.1 mg/kg,预测至2040年平均浓度将增长21%(6.1→7.38 mg/kg),超标率上升12.24%;3)SHAP分析揭示生产年限与产量的非线性阈值效应——当企业运营超15年或年产量突破200万吨时,BaP累积风险显著加剧。
这项研究首次实现了工业场地特定污染物的多维度动态预测,其创新性体现在:1)将政策标准量化结果作为机器学习输入特征,突破传统环境模型的政策表达瓶颈;2)通过可解释AI技术(SHAP、部分依赖图)解析企业生产参数与污染累积的因果关联,为"一厂一策"精准治理提供决策支持。研究结果证实,强化全生产周期排放标准可有效抑制土壤BaP累积,这对中国"十四五"土壤污染防治行动计划的实施具有重要指导价值。
生物通微信公众号
知名企业招聘