《Patterns》:Quantifying extreme failure scenarios in transportation systems with graph learning
编辑推荐:
GAE-IS 方法利用图学习技术,有效降低计算成本,精准估算极端失效概率,评估基础设施韧性。
### 一、研究背景与挑战
在工程系统领域,极端事件(如极端天气、地震等)虽发生概率低,却能对交通网络、电网等关键基础设施造成灾难性影响。这些事件可导致基础设施瘫痪、经济损失惨重,甚至威胁国家安全。例如,强台风可能破坏输电线路,引发大面积停电;洪水会冲毁道路,阻断交通。因此,评估工程系统在极端条件下的可靠性至关重要,这是系统规划和设计的基础,有助于识别潜在风险,制定应对策略。
然而,传统方法在估算极端失效概率时面临诸多挑战。一方面,极端事件稀有,传统的蒙特卡罗模拟等方法计算成本高昂。以估算概率为10?6、标准误差为 10% 的极端失效场景为例,需约108数量级的样本量,模拟复杂非线性工程系统在众多失效场景下的性能极为困难。另一方面,常用的重要性采样(IS)方法虽能降低方差,但确定合适的重要性采样密度(ISD)难度大。在高维问题中,现有近似 ISD 的方法(如高斯混合模型、自适应核密度估计等)存在参数和样本量爆炸的问题,应用于大规模网络时计算成本过高。
二、GAE-IS 方法概述
为解决上述问题,研究人员提出了基于图自动编码器的重要性采样(GAE-IS)方法。该方法借助图学习技术,显著降低计算负担,提高极端失效概率估算的准确性,可用于评估多种城市基础设施(如电力、交通、供水系统)的韧性。
GAE-IS 方法具有两大核心优势。其一,通过图自动编码器(GAE)构建的临界性评估器具有可转移性。此评估器基于 GAE 框架,能评估网络组件对整体网络功能的临界性。在小规模子网络上训练后,可有效转移到大规模网络,无需在大网络上进行大量预采样即可确定 ISD 函数,且模型参数数量不受系统规模和变量维度影响,解决了传统 IS 方法在高维系统中的难题。其二,该方法在工作流程中解耦了组件的临界性与物理失效特征。将组件的脆弱性与潜在灾害的破坏强度空间分布相关联,结合结构脆弱性得到脆弱性分布。通过整合临界性分布与脆弱性分布,可导出 GAE-IS 的组件 ISD 函数,避免了自适应采样方法中因灾害类型或脆弱性分布变化而重新训练模型的问题。
三、GAE-IS 方法的具体实现
- 工作流程
- 道路运输网络被视为由节点和链路组成的有向图。节点代表路口和出行需求的起点或终点,链路代表路段。研究采用平均出行时间(ATT)作为系统性能指标,以评估事件发生后的系统服务水平。ATT 通过公式ATT=D1∑itliQli计算,其中D是网络总出行需求,Qli是链路li的交通流量,tli是链路li的出行时间,tli由 Bureau of Public Roads(BPR)函数tli=tli0×(1+α×(CAliQli)β)计算得出,tli0是链路的自由流出行时间,CAli是链路容量,α和β分别取 0.15 和 4。
- 研究设定链路存在空间异质的失效概率τ,并假设链路结构失效相互独立。极端失效场景定义为 ATT 超过阈值θe的情况。确定θe时,先通过粗蒙特卡罗方法采样5×103个失效场景,然后用伽马分布拟合右偏的 ATT 或使用核密度估计处理多峰分布,将 ATT 分布的 99.75th 和 99.95th 百分位数作为极端失效阈值,实际应用中可根据需求调整。
- 在训练网络中,使用粗蒙特卡罗方法随机采样Nt个网络失效场景,选取部分导致网络性能大幅下降的样本作为风险场景。计算每个链路出现在风险场景中失效链路集合的可能性,以此调整链路的假设失效概率,进行迭代预采样,直至风险场景阈值超过θe。
- 临界性评估器根据道路网络的邻接矩阵和节点属性(包括拓扑中心性指标和交通流属性)学习每个链路对网络性能下降的影响特征表示,输出链路在风险场景中属于失效链路集合的可能性,量化链路的临界性。最后,根据链路临界性调整其结构失效概率,得到每个链路的 ISD 函数,进而确定失效场景的 ISD 函数。
- 临界性评估器
- 临界性评估器基于 GAE 框架,输入包括网络的邻接矩阵和节点特征矩阵(由拓扑指标和交通流属性构成,每个节点用 12 维特征向量表示,数据预处理时进行标准化)。通过两层图卷积网络和两层全连接层进行编码,以链路容量作为边属性。
- 由于交通网络中道路段的失效影响因方向而异,而传统 GAE 适用于无向图,研究采用 Ou 等人的方法,分别训练链路起点和终点的嵌入向量,以区分双向链路。训练时,为每个链路分配实值标签,通过最小化估计的链路可能性(节点嵌入向量的内积)与对应标签的误差来优化参数。
- 重要性采样理论基础
重要性采样通过从引入的辅助分布中生成样本,增加特定样本的数量。对于估计E(f(x))=∫Df(x)g(x)dx(其中g(x)是名义分布,f(x)是被积函数),若q(x)是正概率密度函数,则E(f(x))=∫Dq(x)f(x)g(x)q(x)dx=Eq(q(X)f(X)g(X)),其中w=q(x)g(x)是重要性权重,q(x)是 ISD 函数。通过从q(x)中采样n个实例,用样本均值E^(f(x))=n1∑i=1nq(Xi)f(Xi)g(Xi)估计期望,同时需满足q(x)>0(当f(x)g(x)=0时),以保证估计的无偏性。概率估计的方差(VPE)为σ^q2=n1∑i=1n(q(Xi)f(Xi)g(Xi)?E^(f(x)))2,VPE 越高,数据点偏离均值越大,估计概率的稳定性越差。
- GAE-IS 方法的应用与评估
- 研究在多个实际道路运输网络(如德国的 Berlin-Mitte-Prenzlauerberg-Friedrichshain-Center(BMPFC)、澳大利亚的北部 Gold Coast(NGC)、美国的 Anaheim 和 Chicago-Sketch(CS))上验证了 GAE-IS 方法的性能。实验前对网络数据进行预处理,如调整部分网络中连接器链路的容量,以确保模型的平衡训练。
- 设置 GAE-IS 的参数(如链路失效概率τ、假设失效概率?、采样次数Nt等)和临界性评估器的超参数(如卷积层和全连接层的输出通道数、激活函数、损失函数等),通过交叉参考损失函数曲线和 VPE 曲线确定训练的停止 epoch。
- 进行特征扰动实验,量化节点特征对模型估计链路临界性的影响。结果表明,节点的剩余容量是所有道路网络中最关键的特征,其次是通过节点的流量,这为理解网络关键链路提供了重要依据。
四、GAE-IS 方法的实验结果
- 采样效率提升
与相同样本量的粗蒙特卡罗模拟相比,GAE-IS 在识别导致系统性能大幅下降的极端失效场景方面表现更优。在 BMPFC、Anaheim 和 NGC 网络中,GAE-IS 的 VPE 显著降低,采样效率分别提高了 82 倍、45 倍和 139 倍。同时,在子网络上进行预采样的计算时间比在原始网络上分别节省了 12 倍、9 倍和 19 倍,证明了临界性评估器的可转移性和 GAE-IS 方法在大规模网络中的可行性和有效性。
- 参数敏感性分析
对参数η进行敏感性分析发现,增加η能增强 GAE-IS 捕获更多极端失效场景的能力,同时降低这些场景的 VPE。但η较低时,GAE-IS 的概率估计与参考概率更接近,准确性更高;η增加时,概率估计误差增大。这表明在有限样本量下,η对概率估计准确性影响显著,实际应用中需权衡样本方差和估计准确性,通常较低的η值(如 0.1 或 0.15)更有利于获得准确的概率估计。
- 异质链路失效概率下的应用
将 GAE-IS 应用于芝加哥道路网络,考虑地震导致的路段失效概率(通过地理地震风险和路堤脆弱性曲线计算)。结果显示,GAE-IS 在采样极端失效场景方面明显优于粗蒙特卡罗方法,采样效率提高了 2 - 40 倍,在子网络上进行预采样的计算时间仅为原始网络的 1/32。这表明 GAE-IS 在处理空间异质链路失效概率场景时同样有效,且能根据地震风险变化轻松更新 ISD 函数,适用于不同的灾害场景,显著降低了重要性采样成本。
五、讨论与展望
GAE-IS 方法为估算大规模基础设施网络的极端失效概率提供了有效途径,尤其在交通系统中表现出色。其计算效率高,能有效解耦组件临界性与脆弱性,减少了模型训练和采样的成本。在不同类型的道路网络实验中,GAE-IS 均展现出良好的性能,为从极端值统计角度评估基础设施网络韧性提供了有力支持。
然而,GAE-IS 目前主要适用于成熟阶段的基础设施系统。当系统处于规划、建设或测试阶段,网络拓扑结构或出行分布模式发生显著变化时,需要重新训练模型。未来研究可探索 GAE-IS 在不同拓扑结构和需求分布网络中的可转移性,优化子网络选择标准,进一步提升其性能和应用范围。例如,研究人员可深入分析子网络与整体网络的结构和功能相似性,为选择更具代表性的训练网络提供理论依据,使 GAE-IS 能更好地应用于水分配系统、电网、通信系统等多种基础设施领域,助力构建更具韧性的城市和可持续发展的社区。