用于灾害废弃物估算的统计模型:利用贝叶斯回归方法纳入不确定性因素

《Journal of Cleaner Production》:Statistical models for disaster waste estimation: Incorporating uncertainty using Bayesian regression

【字体: 时间:2025年10月18日 来源:Journal of Cleaner Production 10

编辑推荐:

  灾害废物量估计的贝叶斯回归模型研究。通过比较21种候选模型,发现分层贝叶斯模型(以受损房屋数量为预测因子,按灾害类型和城市化程度分组)在概率预测和区间预测中表现最佳,使用对数正态或韦伯分布。模型能有效整合不确定性,适用于数据稀缺环境,并通过区域数据适配提升决策支持。

  在应对自然灾害的过程中,准确估计灾难性废弃物的数量对于实现可持续的灾难废弃物管理至关重要。以往的研究在考虑不确定性方面存在不足,因此本研究旨在开发基于贝叶斯回归的估计模型,这些模型能够通过简单的结构提供包含不确定性的预测结果。为实现这一目标,我们对21种不同的候选模型进行了交叉验证,并使用了概率预测准确性、点预测准确性和区间预测准确性的评估指标进行比较。研究结果表明,使用对数正态或威布尔分布,并以受损房屋数量作为预测变量,灾难类型和城市化程度作为分组变量的层次模型在预测性能方面表现最佳。将这些模型应用于区域数据集,可以构建特定于区域的估计模型,从而更合理地估算灾难性废弃物,为更好的决策提供支持。

灾难性废弃物的估计对于灾前准备、灾后资源分配以及废弃物处理、回收和处置至关重要。灾前准备阶段,对可能产生的灾难性废弃物数量进行粗略估计,有助于规划者提前建立必要的废弃物管理能力。灾后决策阶段,需要根据灾害类型和规模,合理分配预算、人力和临时存储设施等资源。废弃物处理阶段,由于与废弃物管理公司的合同通常基于预估的废弃物数量,因此需要对废弃物的总量和组成进行准确量化。在这些决策过程中,准确估算废弃物的数量和类型对于有效管理至关重要。

为了满足这些需求,已经开发了多种估算方法。其中包括基于历史数据的方法、基于数据库的方法以及基于图像处理的方法。历史数据方法通过分析过去事件的数据,开发单位生成率或统计模型进行预测。虽然大多数统计模型使用传统的多元回归方法,但近年来也出现了一些采用广义线性混合模型、贝叶斯回归和机器学习等方法的研究。基于数据库的方法利用特定区域的材料存量数据,并在假设某些材料被灾害破坏的情况下估算总废弃材料量。这些方法在日本、中国、秘鲁和尼泊尔等国家均有应用。基于图像处理的方法则通过无人机、空中传感器或卫星拍摄的灾害区域图像,使用图像处理技术进行估算。

本研究聚焦于开发用于灾难性废弃物估算的统计模型,因为这种方法可以同时用于灾前规划和灾后响应,并且能够涵盖灾难性废弃物的各种成分,包括建筑和拆除(C&D)废弃物、耐用家庭废弃物以及其他来源的废弃物。当前统计模型在灾难性废弃物估算中的主要挑战在于未能充分考虑预测的准确性和不确定性。尽管有研究讨论了模型的准确性,但大多数研究仅评估了模型与训练数据的拟合度,这可能导致模型在预测未来数据时效果不佳。一些研究采用了交叉验证方法,其中一部分数据被保留下来以验证模型的性能。然而,现有的模型大多只提供单一预测值或采用确定性方法,未能全面表达预测的不确定性。考虑到灾难性废弃物生成机制的复杂性和灾害情境的固有不确定性,预测结果的不确定性应向决策者展示。此外,数据稀缺也是一个重要挑战。以往的研究大多基于小样本量,因为自然灾害本身较为罕见,且具有比市一级更高的空间分辨率的灾难性废弃物数据较为稀缺。例如,González-Due?as等人(2023)的研究样本量异常大,因为他们能够利用带有街道地址的废弃物清除量数据。

为了应对这一挑战,本研究开发了基于贝叶斯回归的估算模型。贝叶斯统计方法认为,参数的概率分布条件在已知数据值的情况下进行估计。这种估计称为后验分布,其数学表达式为p(θ|y),其中θ表示参数,y表示数据。贝叶斯方法的基本思想是,通过指定先验分布,反复抽样θ,并利用现有数据计算似然,从而估计后验分布。通过使用估计的后验分布,可以模拟未观测结果(即新灾难产生的废弃物量)的概率分布。这种方法与频率学派中的置信区间不同,置信区间表示的是在多次重复推断中,特定区间包含“真实值”的百分比。目前,贝叶斯统计方法在灾难性废弃物估算中的应用主要集中在Park等人(2020b)的研究中,其作用尚未被充分探索。例如,Park等人(2020b)仅讨论了后验预测分布的单一均值值,而没有表达预测的不确定性。此外,贝叶斯方法不需要最小样本量,并且可以随着更多数据的出现更新后验概率。机器学习(ML)是另一种强大的方法,近年来,ML在估算固体废弃物生成方面的应用日益广泛,使用如人工神经网络(ANN)、随机森林(RF)、支持向量机(SVN)和XGBoost等算法。然而,由于灾难性废弃物数据往往具有小样本量和数据异质性,这些因素成为使用ML算法进行无偏估计的障碍。

因此,本文的目标是使用贝叶斯方法开发一种能够有效预测未来灾难性废弃物并表达其不确定性的统计模型。在第二部分中,我们分析了灾难性废弃物生成的机制。研究假设,灾害的特征(如强度、持续时间和频率)与当地社会和自然条件相互作用,产生灾害的影响。然后,通过恢复努力所丢弃和收集的材料成为灾难性废弃物。这表明,给定灾害的废弃物量可以通过灾害损害指标(如受损房屋数量)或灾害特征指标(如强度和地理覆盖范围)以及区域特征指标(如人口密度和土地利用类型)进行估算。先前的统计模型表明,受损房屋数量与灾难性废弃物量之间存在显著关系,而其他指标如受损农田面积和受损道路、河流等则未显示出显著影响。Park等人(2020a)的研究显示,通过按行政区域、城市化率和灾害类型对数据进行分层,可以提高模型的预测准确性。考虑到城市化程度和灾害类型对废弃物类型和数量的影响,本文的研究假设这些因素可能影响模型中参数之间的关系。

在第二部分中,我们概述了研究中使用的统计模型。对于似然函数,我们比较了适用于连续变量且仅取正值的典型概率分布,如对数正态、伽马、逆伽马和威布尔分布。以往的灾难性废弃物估算模型假设(无论是显式还是隐式)正态分布或对数正态分布。然而,正态分布可能生成负值,这与灾难性废弃物的正数特性不符。研究显示,对数正态分布对于洪水废弃物估算比正态线性模型更合适。其他概率分布尚未广泛应用于灾难性废弃物估算模型,但在保险研究等领域已有应用。其中,威布尔分布具有灵活表示不同形状的能力,这可能使其在表达数据变异性方面优于其他分布。

在第三部分,我们描述了研究中使用的数据集和方法。日本的市镇政府负责灾难性废弃物的处理,每年的处理量按废弃物组成(如木材、混凝土、金属、沉积物等)进行报告,并自2011年起在官方网站上披露了这些信息。由于海啸和滑坡可能通过不同的机制产生大量沉积物,因此在估算灾难性废弃物时,排除了沉积物。此外,市镇政府并不处理由基础设施或私人公司产生的废弃物。对于受损房屋数量,我们使用了根据《灾害管理基本法》由各市镇政府颁发的灾难受害者证书。S1代表完全倒塌的房屋数量,S2代表半倒塌的房屋数量,S3代表部分倒塌的房屋数量。D由各市镇政府报告的灾害类型(地震、海啸、洪水或台风)确定。数据集包含了2020年发生的灾害案例,包括99起地震、335起洪水、25起海啸和38起台风。通过将数据与日本环境省网站上的数据进行交叉核对,我们确认了数据的完整性,并排除了两个数据源之间差异超过10%的案例。对于城市化程度(U),我们使用了由农业、林业和渔业省确定的农业区域数据。每个市镇被分类为以下四种类型:城市区域、平坦农业区域、中间农业区域或山地农业区域,根据密集居住区、耕作区和森林区的百分比进行分类。

最终的数据集包含497个完整案例,包括99起地震、335起洪水、25起海啸和38起台风。图2展示了按灾害类型分组的对数变换后的W、S1、S2和S3的分布情况。总体来看,图2显示,洪水和台风的数据在灾害和废弃物数量方面相对较小,而地震和海啸的数据则较大。每个灾害组的W中位数分别为6,852吨、379吨、453,595吨和606吨。图2的右上角面板显示,对数变换后的预测变量与对数变换后的结果变量W高度相关。此外,对数变换后的预测变量之间也存在相关性,这可能增加多重共线性的风险。尽管多重共线性对因果推断可能是一个问题,但对预测本身并不构成障碍。通过使用本文采用的正则化(弱信息)先验分布,可以避免多重共线性下参数估计的不稳定性。由于本文的目标是预测,这些预测变量被使用,但在解释结果时需要注意机制的潜在偏差。

在第三部分,我们详细描述了估算方法。每个模型的参数后验分布和测试数据的结果通过R(版本4.4.1)及其部分包进行模拟。贝叶斯估算中使用了cmdstanr包(版本0.9.0),该包是广泛使用的统计建模平台Stan的R接口,使用哈密尔顿蒙特卡洛算法中的无U-turn采样器来模拟后验分布。rethinking包(版本2.40;McElreath, 2020)中的ulam函数被用来帮助编写统计模型。为了确保模拟过程的高效采样,统计模型在编写时被重新参数化为非中心形式,这是层次模型的标准方法。本文使用的完整代码和数据集可在在线资源中获取(https://osf.io/dgwv2/?view_only=45b49e1e9c5f4e45b8095d60a683e79d)。后验分布通过5000次抽样和5000次预热抽样在八条并行链上进行模拟。为了确保哈密尔顿蒙特卡洛样本收敛到目标分布并具有实用价值,仅使用Rhat小于1.01且有效样本量大于400的估算结果,如前人研究建议(Vehtari等人,2021)。

在第三部分,我们使用交叉验证方法比较了模型。三个预测准确性的指标被用于评估模型性能。一个是预测的对数得分,称为对数预测密度(或对数似然),该指标考虑了完整的不确定性(完整后验分布)来评估概率预测的准确性。在大样本量的情况下,对数预测密度最高的模型被认为具有最高的后验概率。另外两个指标从实际应用的角度出发。在实际应用中,决策者需要单个值或合理的未来灾难性废弃物范围来进行灾前和灾后规划和资源分配。因此,点预测和区间预测的准确性也被评估。点预测的准确性通过预测值与观测值的比值来衡量,该比值称为P/O比值。贝叶斯预测中,点估计有多种选择,包括后验分布的均值、中位数或众数。本文使用了后验分布的中位数,因为它对异常值和偏态分布具有鲁棒性。区间预测的准确性通过正确包含观测数据的百分比来衡量,称为C率。使用了80%等尾区间(ETI),表示模拟预测的10%和90%分位数之间的区间。

良好的模型拟合并不保证对未来的良好预测(McElreath, 2020)。模型在给定数据上拟合良好但在未来数据上表现不佳的现象称为过拟合。为了避免过拟合并评估每个模型的样本预测准确性,候选模型通过交叉验证进行比较。交叉验证是一种方法,其中一部分数据集被保留下来用于模型验证,作为未来数据的代理,其余数据用于训练模型(Gelman等人,2021)。一种常见的数据划分策略是10折交叉验证(cv),其中模型训练和测试重复10次,每次使用10%的观测数据进行测试,其余90%用于训练,确保每次折叠都包含所有D和U组的数据。每个k次折叠中,对每个y_i的预期对数预测密度(elpd_cv)的计算遵循Vehtari等人(2017)的公式(2)。p(y_i|θ_k,s)项表示在后验分布p(θ|y_{(?k)})下,y_i的概率密度。通过使用S次模拟抽样,总结了这些项,以评估模型的预测能力。

在第四部分,我们展示了模型比较的结果。在21个候选模型中,除了LW_2外,其余20个模型成功收敛并能够生成后验预测分布。LW_2将不在此后讨论。为了展示不同似然和变量转换对后验预测分布的影响,我们展示了七个候选模型的结果,这些模型包含了完整的预测变量(图3)。所有模型在观测值较大的区域(通常大于100吨)平均预测准确,但观测值较小的区域之间的预测准确性因模型而异。在区间预测方面,每个模型表现出不同的特征。例如,在模型G_3中,观测值较小的区域的区间预测范围较宽,而在模型LIG_3中,观测值较大的区域的预测范围较宽。在接下来的章节中,我们将更详细地讨论这些模型的整体预测性能。

从概率预测性能来看,elpd_cv值最高的模型被认为是表现最佳的模型。通过比较每个模型与最高elpd_sum模型的elpd_cv差异,并计算每个模型的elpd_diff,我们能够判断模型之间的差异是否显著。如果两个模型之间的elpd_diff值超过1.96倍的elpd_diff标准误差(se_elpd_diff),则认为具有较高elpd_sum值的模型显著优于其他模型。为了确定基本模型结构(似然和变量转换),我们比较了在相同结构下的模型的elpd_sum、elpd_diff和se_elpd_diff值。结果表明,尽管LN_3和W_3的elpd_sum值不是显著不同,但这两个模型的表现优于其他候选模型。为了确定分组变量D和U是否提高了预测性能,我们比较了对数正态模型和威布尔模型的elpd_sum值。结果显示,对于对数正态和威布尔模型,将模型转换为包含分组变量D的层次模型提高了elpd_sum值。进一步添加另一个分组变量U倾向于提高elpd_sum值,尤其是对于威布尔模型,但差异不显著(α=0.05)。这似乎与González-Due?as等人(2023)的研究结果不一致,他们发现与开发相关的土地覆盖特征是预测废墟体积的重要预测变量。这种差异可能源于数据的空间分辨率。在本研究中,U是表示整个城市城市化程度的分组变量,而在González-Due?as等人(2023)的研究中,数据是以0.5公里×0.5公里的网格单元为单位的。因此,U可能未能准确反映城市和农村混合区域中实际受灾区域的城市化程度。需要进一步研究以明确U在灾难性废弃物预测中的应用。

在模型比较的总结部分,elpd分析表明,LN_3和W_3在概率预测性能方面表现最佳。从点估计的角度来看,W_3的点估计通常更接近观测值,但结果的变异性较大,与其他模型的差异并不显著,除了IG_3和LW_3明显表现较差。从区间预测的角度来看,使用对数正态、威布尔和逆伽马分布的模型被认为在区间预测的宽度和准确性方面是合适的。总体而言,考虑到科学和实际应用的视角,LN_3和W_3是21个候选模型中推荐的选项。相对而言,如果优先考虑区间预测的准确性,推荐使用LN_3;如果优先考虑点预测的准确性,推荐使用W_3。

在第四部分,我们讨论了模型的推广性和局限性。首先,模型的实用性需要基于受损房屋数量的估计。房屋损害可以通过基于建筑结构信息和灾害强度及范围的脆弱性函数进行估算(Moel等人,2016;Spence等人,2021;Torisawa等人,2022)。在灾害发生前,可以利用基于预期灾害强度和空间分布的脆弱性函数进行房屋损害的估算,并将这些估算结果用于本研究中提出的模型进行灾难性废弃物量的预测。当灾害发生时,可以使用基于灾害信息的脆弱性函数估算受损房屋数量,如同平常一样。为了实现这一目标,需要开发能够即时检测灾害强度分布(如地震强度分布或洪水淹没区域)的系统。通过将这些数据作为输入,可以利用本研究中提出的模型预测灾难性废弃物量。使用R进行计算,并应用第3.2节提供的代码,可以使用区域特定的灾难性废弃物生成数据计算参数的后验分布。通过开发一个实现代码的应用程序(例如使用RShiny),可以更方便地进行估算。此外,通过建立和更新灾难性废弃物记录数据库,可以利用贝叶斯更新方法持续改进估算。

如第四部分所述,当真实值小于100吨时,估算结果可能大大高估。然而,在实际应用中,这通常不被视为重大问题,因为通常在正常时期制定计划时假设发生大规模灾害。在灾害发生时,当真实值小于100吨时,灾难性废弃物的处理通常会在短时间内完成,因此估算不会显著影响管理过程。在每个市镇的废弃物估算中,应首先考虑W_3的点和区间估计,同时考虑LN_3的区间估计以降低错误区间预测的风险。估算结果可用于初步了解处理灾难性废弃物所需的预算和组织结构规模。随着灾害响应的推进,可以确定灾难性废弃物的数量是大于还是小于具有相似损害程度的平均情况。通过测量和量化临时存储点积累的灾难性废弃物,统计计划中待拆除的受损房屋数量,并识别独特的灾难性废弃物类型,可以获得有用的信息。例如,如果某地区在水稻收割季节产生大量特定的灾难性废弃物(如稻草),真实值更可能接近或超过预测区间的上限。此外,虽然本研究使用了80%的等尾区间,但可以考虑参考99%的等尾区间以应对更极端的情况。估算结果可以帮助规划额外的临时存储点和废弃物管理与回收能力,以完成灾难性废弃物的处理。在区域或国家层面,各市镇的点预测总和可以作为总废弃物量的估算,考虑到本研究中提出的模型具有较高的平均预测准确性。

在第四部分,我们还讨论了模型的局限性和未来发展方向。尽管提出的模型在平均预测性能上表现出色,并能够通过简单的模型结构表达预测的不确定性,但在个体预测的准确性方面仍有改进空间。为了克服这一局限性,未来研究至少需要考虑三个重要方面。首先,数据的覆盖范围和质量需要改进。在覆盖范围方面,数据应涵盖各种灾害类型和不同的地方特征,以提高模型的通用性。在数据质量方面,Chen等人(2007)指出,与灾害相关的数据存在较大的测量误差。在本研究中,由于受损房屋数量和灾难性废弃物量之间存在极端差异,怀疑存在测量误差,但这些数据未被排除为异常值,因为缺乏支持记录。因此,需要进一步分析单个灾害记录以提高现有数据的质量。对于未来灾害,应在记录数据时引入检测测量误差的方法。其次,需要提高数据的空间分辨率,以更好地反映受灾区域的实际状况。使用高分辨率数据,可以将灾害和区域特征指标(如最大淹没深度、最大24小时降雨量和地震强度)直接用于建模,这可能使灾难性废弃物的估算能够在灾害发生后立即进行。第三,除了贝叶斯回归之外,应考虑其他预测变量和建模方法。其他预测变量可以包括除房屋以外的灾害损害(如受损公共基础设施或植被损害)。如果高空间分辨率数据可用,应考虑灾害和区域特征相关的预测变量。在建模方法方面,例如,在保险研究中,一种结合两个概率分布的分段模型已被研究用于估算平均保险费用和极端高保险费用(Reynkens等人,2017)。此外,当数据充足时,机器学习方法也应被考虑,尤其是当预测准确性是首要目标时。

另一个局限性是模型未能考虑多重和连锁灾害后的废弃物。连锁灾害已知会产生与普通单一灾害不同的损害模式(Pescaroli和Alexander,2016)。这意味着,连锁灾害产生的废弃物不能简单地视为两个独立灾害废弃物的总和。因此,需要考虑避免重复计算先前灾害产生的废弃物,并考虑因多重灾害产生的额外废弃物。例如,地震后受到暴雨影响的建筑物通常会产生比平时更多的废弃物。这表明,模型需要进一步扩展,以考虑连锁灾害的影响。

最后,我们总结了研究的主要发现。本研究利用日本的灾难性废弃物处理记录,开发了一种考虑不确定性的贝叶斯回归模型,用于估算灾难性废弃物的生成量。通过系统比较21个候选模型,发现使用对数正态或威布尔分布,以受损房屋数量作为预测变量,以灾难类型和城市化程度作为分组变量的层次模型在概率预测方面表现出最高的准确性。从实际应用的角度来看,当优先考虑点估计时,应使用威布尔分布;当优先考虑区间估计时,应使用对数正态分布。为了在实践中应用这些发现,需要从各地区的灾难性废弃物管理数据中估算区域特定的后验分布,并通过贝叶斯更新持续改进这些分布。本文展示了估算模型的基本形式,还有进一步提高其准确性的空间,可以通过纳入区域特定因素来实现。此外,提供计算工具,使人们能够利用获得的后验分布对新灾难进行估算,将是一个重要的贡献。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号