碳税政策下基于强化学习的废旧电子电气设备闭环供应链多级库存优化:经济与环境效益双赢之道

【字体: 时间:2025年05月12日 来源:Engineering Applications of Artificial Intelligence 7.5

编辑推荐:

  为解决废旧电子电气设备(WEEE)闭环供应链(CLSC)中库存管理问题,研究人员构建多阶段库存模型,运用近端策略优化(PPO)算法训练强化学习(RL)智能体。结果显示 PPO 算法在成本控制和减少碳足迹方面表现更佳。该研究助力企业平衡经济与环境效益。

  
随着科技的飞速发展,电子电气设备(EEE)已经深入人们生活的方方面面。然而,大量 EEE 产品在使用后变成废旧电子电气设备(WEEE),给环境带来了巨大压力。2022 年全球电子垃圾生成量达到 6200 万吨,相比 2010 年增长了 82% ,预计到 2030 年将达到 8200 万吨。WEEE 中含有铅、汞等有害物质,若处理不当,会污染土壤和水源。传统的填埋、焚烧等处理方式,不仅会加剧温室气体排放,还会造成可回收资源的浪费。

为了应对这些环境挑战,政府和企业合作采取了一系列措施,其中建立 WEEE 闭环供应链(CLSC)成为推动循环经济发展的关键手段。通过回收和再利用 WEEE,不仅能减少废弃物排放,还能提高资源利用效率。与此同时,各国政府为实现《巴黎协定》的减排目标,纷纷实施碳定价政策,如碳税和碳交易系统,引导企业向低碳运营转型。

在这样的背景下,高效的供应链管理对于 CLSC 的成功实施至关重要。然而,现有的研究存在诸多不足。一方面,多数研究仅关注生产和运输环节(Scope 1 和 Scope 2)的碳排放,忽视了供应链上游活动(Scope 3)的碳排放,而这部分碳排放通常占企业总碳足迹的很大比例,对评估企业整体环境影响至关重要。另一方面,现有研究普遍忽略了库存管理中的诸多问题,如仓库库存、库存容量,以及回收数量和产品需求的不确定性。在 CLSC 管理中,库存管理起着举足轻重的作用。有效的库存管理能够确保产品全生命周期中物料和产品的高效顺畅流动,减少仓储、生产和原材料采购等不必要活动,降低企业碳足迹;还能平衡供需波动,帮助企业应对回收数量和产品需求的未来变化,提高供应链的响应能力和企业竞争力。但不确定性是优化企业库存决策面临的关键挑战,传统的库存管理方法,如 (s, S) 和 (s, Q) 补货策略,在面对市场环境的动态不确定性时存在很大局限性;多阶段随机规划方法虽然能描述不确定性,但随着不确定性增加,计算复杂度高。此外,库存管理中的收集规划决策也未得到充分关注,给企业运营带来风险。

为了解决这些问题,来自未知研究机构的研究人员开展了 “碳税政策下基于强化学习的废旧电子电气设备闭环供应链多级库存优化” 的研究。研究人员构建了一个多阶段、多周期的 CLSC 库存控制模型,该模型综合考虑了产品需求和市场可回收数量的不确定性、仓库容量约束以及碳税的影响,旨在最小化企业总成本。为应对模型中的不确定性,研究人员采用近端策略优化(PPO)算法训练强化学习(RL)智能体。该智能体能够根据库存水平和市场状况,动态调整企业内部的收集、生产策略以及外部采购策略。通过将碳排放成本纳入碳税率,RL 智能体在优化总成本的同时,实现经济和环境效益的平衡。

研究人员在研究过程中主要运用了以下关键技术方法:一是构建基于马尔可夫决策过程(MDP)的模型,将库存管理问题建模为 MDP,把仓库库存、历史产品需求和市场可回收数量作为状态空间,将回收、制造和采购等运营决策作为行动空间;二是采用近端策略优化(PPO)算法,利用其剪裁目标函数的特性,处理复杂动态环境,限制策略更新幅度,确保训练稳定高效。

研究结果


  1. 模型构建与评估:构建的多阶段、多周期 CLSC 库存控制模型,全面考虑了产品需求和市场可回收数量的不确定性。基于温室气体(GHG)协议评估 Scope 1 - 3 的碳足迹,为企业提供了全面的环境效益评估,弥补了现有研究忽视供应链上游碳排放的不足。同时,模型引入收集规划决策,解决了现有研究仅关注生产和运输决策的局限性。
  2. 算法应用效果:运用 PPO 算法训练智能体解决 CLSC 库存管理问题。通过 RL,智能体能够根据库存水平和市场环境自主做出收集、生产和采购等决策,降低运营期间的累计总成本。实验分析表明,PPO 算法在成本控制和减少碳足迹方面均优于基于 (s, Q) 策略的库存管理策略。在无碳税基准下,碳税为 0.2 时,PPO 算法使成本增加 6.26% ,碳足迹减少 6.53%;而 (s, Q) 策略成本增加 10.75% ,碳足迹仅减少 8.36%。
  3. 碳税政策影响:在不同碳税税率下进行实验分析,结果显示当碳税超过 0.5 时,碳足迹的减少逐渐减弱,而企业成本显著增加。这表明过高的碳税可能给企业运营带来不必要的负担,政府在制定碳税政策时应综合考虑当地市场环境。

研究结论与意义


本研究构建的多阶段、多周期 CLSC 库存控制模型,结合 PPO 算法训练的 RL 智能体,为企业在碳税政策下提供了优化的运营策略。通过考虑供应链全流程的碳排放以及库存管理中的不确定性和收集规划决策,帮助企业实现经济和环境效益的平衡,为可持续供应链管理提供了智能解决方案。研究结果为政府制定合理的碳税政策提供了参考依据,有助于引导企业降低碳足迹,促进可持续发展。同时,该研究也为相关领域的进一步研究奠定了基础,未来可在模型优化、算法改进以及考虑更多实际因素等方面展开深入探索。论文发表在《Engineering Applications of Artificial Intelligence》,为该领域的研究和实践提供了重要的理论和实践指导。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号