基于机器学习的中国337个城市工业固体废物时空数据补全与清单构建

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月17日 来源：Scientific Data 5.8

编辑推荐：

　　针对中国工业固体废物(ISW)数据缺失严重的问题，来自同济大学等机构的研究团队收集了1990-2022年337个城市的ISW数据，开发了六种机器学习模型(KNN、LGBM、RF、MLP、XGB、DT)结合贝叶斯优化进行数据补全，建立了首个完整的城市级ISW数据库，涵盖冶金渣、粉煤灰等六类主要ISW，填补了我国工业废物时空数据空白，为环境管理决策提供重要依据。

中国作为世界工厂，在过去几十年创造了惊人的经济奇迹，但同时也产生了数量庞大的工业固体废物(ISW)。据统计，过去二十年中国的ISW总量达到约60吉吨(Gt)，相当于全球煤炭产量的一半以上。这些工业废物如果处理不当，会造成土壤侵蚀、地下水污染等一系列环境问题。然而令人惊讶的是，由于统计体系不完善，我国竟然长期缺乏完整的城市级ISW时空数据，这严重制约了废物管理和环境政策的制定。

面对这一挑战，来自同济大学环境科学与工程学院的研究团队开展了一项开创性工作。他们收集了1990-2022年间中国337个地级及以上行政区的ISW数据，这些数据来自500多个统计年鉴和公报，但原始数据存在33%的缺失率，特别是在欠发达地区和早期年份。为解决这一问题，研究人员创新性地采用了六种机器学习模型进行数据补全，包括K近邻回归(KNN)、轻量梯度提升机(LGBM)、随机森林(RF)、多层感知器(MLP)、极限梯度提升(XGB)和决策树(DT)，并运用贝叶斯优化技术来调参和选择最优模型。最终构建了我国首个完整的城市级ISW数据库，相关成果发表在《Scientific Data》上。

关键技术方法包括：1)从500多个来源收集337个城市1990-2022年的ISW原始数据；2)开发六种机器学习模型进行数据补全；3)采用贝叶斯优化进行超参数调优；4)重点补全冶金渣、粉煤灰等六类主要ISW在2022年的数据；5)使用R²和均方误差(MSE)评估模型性能。

研究结果显示：

展示了ISW数据补全的方法流程。通过模型比较发现，不同地区最优模型存在差异，如安徽省LGBM模型的调整R²达到0.964，而广东省XGB模型表现最佳(R²=0.960)。

直观呈现了中国ISW产生量前30名城市的热力图。

显示，与1990年相比，2022年中国城市ISW产生量增长显著，资源丰富地区和经济发达地区增幅最大。而则详细展示了2022年各城市六类主要ISW的产生情况。模型验证方面，

表明预测值与实际值具有良好的一致性。

这项研究具有多重重要意义：首先，填补了中国城市级ISW数据的空白，为环境管理提供了基础数据支持；其次，验证了机器学习在环境数据补全中的有效性，特别是贝叶斯优化在提升模型性能方面的价值；再者，建立的数据库可用于预测未来废物产生趋势，评估减排政策效果；最后，研究方法可推广应用于其他环境数据的补全和预测。尽管存在数据质量和模型适应性等局限，但这项工作为工业废物管理和循环经济发展提供了重要科学依据，其方法论框架也可为其他发展中国家提供借鉴。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号