基于熵分析与SHAP值优化的混合特征选择方法提升城市固体废物AI预测精度

【字体: 时间:2025年07月19日 来源:Waste Management 7.1

编辑推荐:

  本研究针对城市固体废物(MSW)预测中特征选择难题,创新性整合互信息(MI)与SHAP值分析,构建FFNN和LSTM混合模型。通过美国奥斯汀、澳大利亚巴拉瑞特和斯里兰卡博拉勒格穆瓦三地验证,发现人口、CPI及滞后5/10/20天的MSW变量是关键因子,最高使决定系数(DC)达0.7226。该方法为多城市废物管理提供可解释AI解决方案。

  

随着全球城市化进程加速,城市固体废物(MSW)管理已成为困扰现代城市的"顽疾"。传统预测方法如多元线性回归(MLR)和自回归积分滑动平均模型(ARIMA)虽简单易懂,却难以捕捉人口增长、消费升级等复杂因素与废物生成间的非线性关系。更棘手的是,当面对多达数十项社会经济指标时,如何筛选关键特征成为提升AI模型精度的"卡脖子"难题。

针对这一挑战,来自土耳其乌鲁达大学(Vahid Nourani团队)的研究人员独辟蹊径,将博弈论中的SHAP值解释与信息论中的互信息(MI)相结合,开创了MSW预测领域的"双筛法"。这项发表在《Waste Management》的研究,通过三大洲典型城市的对比验证,不仅破解了特征选择的"黑箱"困境,更揭示了通货膨胀指标(CPI)对废物生成的隐性影响。

研究团队采用三大关键技术:1) 基于小波变换的Scalogram和偏自相关函数(PACF)提取时间序列滞后特征;2) 互信息(MI)量化132项初始特征与MSW生成的统计依赖性;3) SHAP值解释FFNN和LSTM模型的决策机制。特别值得注意的是,团队创新性地将滞后5/10/20天的历史MSW数据纳入特征池,这种"以废预测废"的思路极大提升了时序预测精度。

【Materials and methods】
通过三阶段研究设计:数据采集覆盖奥斯汀(2005-2020)、巴拉瑞特(2001-2014)、博拉勒格穆瓦(2012-2018)的跨气候区城市;特征工程采用Z-score标准化和最大信息系数(MIC)筛选;模型构建对比了浅层FFNN与深层LSTM的性能差异。

【Results and Discussion】
关键发现包括:1) 奥斯汀因数据连续性最佳,FFNN测试集DC达0.6529;2) SHAP分析揭示CPI对废物生成的U型影响曲线,解释经济波动期的异常排放;3) 滞后20天的MSW变量在LSTM模型中SHAP值最高(0.38),证实"历史排放记忆"效应。

【Conclusions】
该研究开创性地证明:MI-SHAP混合框架可使特征维度降低67%的同时提升预测精度,其中巴拉瑞特的RMSE降低19.2%。特别值得注意的是,该方法成功量化了名义收入与实际收入(经CPI调整)对废物生成的差异化影响,为发展中国家制定弹性收费政策提供量化依据。研究同时暴露出数据质量的"木桶效应"——斯里兰卡案例因数据缺失导致DC不足0.5,凸显建立全球统一监测标准的重要性。

这项研究的现实意义在于:1) 首次实现MSW预测模型的"可解释AI"转型,使决策者能直观理解人口增长1%对应0.7kg/天的废物增量;2) 开发的混合框架具备跨城市迁移能力,在奥斯汀训练的模型经微调即可应用于气候特征相似的北美城市;3) 为《巴黎协定》框架下的城市碳排放核算提供底层方法论支持。未来研究可拓展至医疗危险废物等特殊场景,进一步验证该框架的普适性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号