一种综合方法,用于解决在预测直升机事故致死率时存在的数据不平衡问题
《Engineering》:An integrated approach for addressing data imbalance in predicting fatality of helicopter accident
【字体:
大
中
小
】
时间:2025年11月08日
来源:Engineering 11.6
编辑推荐:
预测城市交通网络节点脆弱性的机器学习框架研究,结合OD需求、链路属性、网络中心性和社会经济因素,构建随机森林、XGBoost、LightGBM和SVC的集成模型,通过SHAP实现可解释性分析,验证模型在柏林、伯明翰等六类网络中的85%准确率与94%计算效率提升,并证实其跨网络迁移能力。
在现代城市中,交通网络扮演着至关重要的角色,它不仅影响人们的日常出行,还直接关系到城市运行的效率与安全性。然而,这些复杂的系统在面对节点级别的拥堵时,容易出现性能下降,例如交通事故、道路容量超载等。传统上,为了评估这些节点对整体出行时间的影响,研究者通常采用迭代式的交通分配方法。这种方法虽然在理论上较为精确,但其计算成本高昂,尤其在处理大型或动态变化的交通网络时,会变得极其缓慢,难以满足实时分析和规划的需求。
为了解决这一问题,我们提出了一种可扩展的机器学习框架,用于预测单个节点失效对整体出行时间(Total Travel Time, TTT)的影响。该模型利用了多种数据来源,包括出行需求数据、道路属性、网络中心性指标以及社会经济背景信息。通过构建一个由四种基础学习器组成的集成模型——随机森林(Random Forests)、XGBoost、LightGBM和支持向量分类器(Support Vector Classifier),并使用逻辑回归(Logistic Regression)作为元学习器,对节点进行重要性分类,将其分为高、中、低三个等级。此外,我们还引入了一个多层感知机(Multi-Layer Perceptron)模型作为对比,以验证所提出方法的有效性。
通过在六个真实世界的交通网络上进行评估,我们的方法展示了其在准确性和计算效率方面的显著优势。在分类准确率方面,我们的模型能够达到最高85%的水平,而在计算时间方面,相较于传统方法,可以减少高达94%的处理时间。这一结果不仅验证了模型的高效性,也为实际应用提供了有力支持。为了提高模型的可解释性,我们采用了一种名为SHapley Additive exPlanations(SHAP)的解释技术,该技术能够识别出对节点重要性预测影响最大的因素,例如初始的路网流量估计。这种可解释性对于可靠性评估和决策支持尤为重要,因为它有助于理解模型预测的依据,从而增强其在实际交通管理中的可信度。
此外,我们还验证了模型的可迁移性。通过在柏林和伯明翰交通网络的小规模版本上进行训练,我们成功地将这些模型应用到了它们的全规模版本,以及另外两个交通网络上。这表明,所提出的方法不仅适用于特定的交通系统,还具有一定的泛化能力,可以在不同的城市环境中发挥作用。这种可迁移性为模型在更广泛的应用场景中提供了可能性,例如在不同规模或结构的交通网络中进行评估,从而提升整体系统的韧性。
在实际应用中,交通网络的节点重要性评估通常涉及两个方面:结构指标和功能指标。结构指标主要关注网络的连接特性,例如节点的度数、网络的连通性等。而功能指标则基于交通流量的参数,如节点的通行能力、路网的负载情况等。然而,仅依靠结构指标来识别关键节点可能无法提供可靠的评估结果,因为这些指标忽略了诸如出行需求(Origin–Destination, OD)和道路容量等关键因素。例如,在高需求的OD路径上,节点的流量会显著增加,因此这些节点的重要性也应被特别考虑。因此,功能指标能够更准确地反映节点的重要性,因为它基于实际的交通流量变化,能够更真实地体现网络的性能。
为了获得这些功能指标,一些研究使用了出租车轨迹数据来估计交通流量,这种方法在交通研究中被证明是高度可靠的。然而,出租车轨迹数据并非所有交通网络都能获取,特别是在数据获取受限或成本较高的情况下。因此,数学方法被广泛用于模拟交通流量,这种方法被认为是交通研究中的一个必然选择。通过使用交通分配方法,可以计算出每条道路的流量,并进一步利用这些流量数据来评估节点的重要性。
在评估过程中,计算整体出行时间(TTT)是一项关键任务,它能够有效反映交通系统的运行效率和用户满意度。因此,TTT成为衡量交通网络性能变化的重要指标。然而,对于每个拥堵节点计算TTT是一项迭代过程,必须对网络中的所有节点进行处理,这在计算上带来了较大的挑战,特别是在处理大型或动态变化的交通网络时。这种计算上的负担限制了其在实时风险管理和韧性评估中的应用,因为每次网络或需求的变化都需要重新进行计算,从而影响了系统的实时响应能力。
因此,从系统韧性和可靠性的角度来看,开发能够高效预测节点失效影响的模型成为一种必要的解决方案。这类模型可以避免重复进行交通分配,从而实现快速、可靠地评估网络性能的变化。这种模型不仅能够支持长期的交通规划,还能够在实际操作中提供及时的决策支持。通过引入机器学习算法,我们能够在不同领域中开发多种模型,这些算法能够处理大量的数据,并有效地管理异常值、噪声和缺失值。与传统的统计模型相比,机器学习模型在预测和分类任务中表现出更强的性能。
在交通网络的研究中,尽管已有不少文献探讨了如何识别关键节点,但专门针对机器学习模型预测节点重要性的研究仍然较少。因此,本研究的目标是开发一种可扩展且可迁移的机器学习模型,能够预测在每个节点发生拥堵后,网络整体出行时间的变化。通过将节点重要性评估视为对网络脆弱性的替代方法,我们的研究为复杂网络的可靠性工程提供了新的思路,特别是在需要可扩展和可解释方法的场景中,如识别关键组件、评估系统级风险和提升基础设施韧性。
本研究的主要贡献包括以下几个方面:首先,我们开发了一种可扩展且可迁移的机器学习框架,用于交通网络的可靠性分析,该框架能够高效预测节点重要性以及由此引发的性能下降,而无需重复进行交通分配。这种方法显著降低了大型或动态交通网络的计算成本,提高了其在实际应用中的可行性。其次,我们整合了多种结构、功能和情境特征,包括OD需求、道路属性、拓扑指数和社会经济因素,以确保模型在不同城市系统中的预测结果具有稳健性和普适性。第三,我们通过应用SHAP技术,增强了模型的可解释性和决策支持能力,能够识别出对节点关键性预测影响最大的因素,从而提升模型在可靠性评估中的透明度和可信度。最后,我们提出了一个专门针对韧性评估的集成学习设计,结合了多种机器学习模型的优势,以提供更可靠和稳定的预测结果,适用于不同的数据集和网络条件。
为了验证所提出方法的有效性,我们选择了六个交通网络作为研究对象。首先,我们使用柏林Mitte(简称BM)网络的一部分进行模型训练,然后在该网络的另一部分进行测试。为了评估模型的可扩展性,我们还使用BM网络训练的模型对柏林Mitte、Prenzlauerberg和Friedrichshain(简称BMPF)网络,以及柏林Moabit(简称BO)和芝加哥网络进行了测试。这些网络的规模和结构各不相同,因此能够全面评估模型在不同场景下的表现。
在模型训练和测试过程中,我们首先计算了每个节点及其相连道路在强制拥堵情况下的总出行时间变化。随后,我们根据这些变化计算了节点的重要性值,并将其分类为高、中、低三个等级。这些结果被展示在图2中,并在表A.1中提供了相关统计信息。如表所示,四个网络中的节点重要性值最低为负值,这表明在某些情况下,节点的失效可能会导致整体出行时间的减少,而非增加。这一发现对于理解交通网络的脆弱性具有重要意义,因为它表明在某些节点失效时,网络的性能可能会有所改善,而非恶化。
此外,我们还对模型的可解释性进行了深入分析。通过SHAP技术,我们能够识别出哪些因素对节点重要性的预测具有最大的影响。例如,初始的路网流量估计被证明是最具影响力的预测因子,这表明在预测节点重要性时,路网的流量数据起到了关键作用。这种可解释性不仅有助于理解模型的预测逻辑,也为实际应用提供了支持,使决策者能够基于模型的输出做出更加合理的判断。
为了进一步验证模型的泛化能力,我们还在不同规模的网络上进行了测试。例如,我们使用在柏林Mitte网络上训练的模型对柏林Mitte、Prenzlauerberg和Friedrichshain网络进行了测试,这些网络的规模和结构各不相同,但模型的预测结果仍然保持了一定的准确性。此外,我们还将模型应用于柏林Moabit和芝加哥网络,以及另外两个交通网络,以验证其在不同数据集和网络条件下的适用性。这些测试结果表明,所提出的方法不仅适用于特定的交通网络,还具有一定的泛化能力,可以在不同的城市环境中发挥作用。
在研究过程中,我们还考虑了模型的可迁移性。通过在不同规模的网络上进行训练和测试,我们发现模型能够成功地迁移到更大的网络中,这表明所提出的方法在不同数据集和网络条件下具有一定的鲁棒性。这种可迁移性对于实际应用尤为重要,因为它使得模型能够适应不同的交通环境,从而提升其在城市交通管理中的适用性。
最后,我们对研究的结论进行了总结。本研究表明,采用机器学习方法预测交通网络中的节点重要性具有显著优势。所提出的方法不仅提高了预测的准确性,还显著降低了计算成本,使得大规模和动态变化的交通网络的韧性评估成为可能。此外,通过引入SHAP技术,我们增强了模型的可解释性,使其能够为决策者提供更加透明和可信的预测结果。这些成果为城市交通网络的可靠性评估和韧性管理提供了新的思路,也为未来的研究奠定了基础。
在未来的工作中,我们计划进一步优化模型的预测能力,以提高其在不同数据集和网络条件下的适用性。同时,我们还希望探索更多的数据源,例如实时交通数据和社会经济数据,以提升模型的泛化能力和预测精度。此外,我们还考虑将模型应用于更复杂的交通网络,例如多层交通系统或混合交通模式,以验证其在更广泛场景中的表现。最后,我们希望通过与实际交通管理系统的结合,进一步验证模型的实际应用价值,并为城市交通规划和基础设施建设提供支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号