基于众包速度变异特征的大规模移动数据识别高风险道路

《Applied Geography》：Identifying high-risk roadways using crowdsourced speed variation features from big mobility data

【字体：大中小】 时间：2026年01月01日 来源：Applied Geography 5.4

编辑推荐：

　　为解决传统基于事故数据的道路安全评估方法存在滞后性、无法主动识别风险的问题，研究人员开展了一项利用联网车辆(CV)大数据进行主动道路安全评估的研究。该研究通过分析一个月内联网车辆产生的速度变异特征，构建了多种机器学习模型，发现众包速度变异特征，特别是分时段生成的特征，是量化事故风险的有效替代安全指标(SSM)。研究结果表明，利用商业化的联网车辆数据可以主动识别高风险路段，为交通管理部门进行前瞻性安全干预提供了新的数据支持。

论文解读

研究背景：从“亡羊补牢”到“未雨绸缪”的道路安全新范式

道路交通事故是全球性的公共卫生危机，每年导致约120万人死亡。联合国可持续发展目标（SDG）曾设定明确目标，即到2020年将全球道路交通死伤人数减半，但这一目标在大多数国家仍未实现。有效识别事故多发路段对于降低交通风险至关重要，这不仅有助于交通部门更有效地分配安全资源，还能提高公众对潜在风险的认识，鼓励更安全的驾驶行为。

传统的道路安全研究主要基于历史事故数据，然而，依赖事故数据是一种非常被动的评估方式，只有在事故记录达到一定数量后才会被认定为高风险路段。这种“亡羊补牢”式的评估方法存在明显的滞后性，且可能低估了风险。因此，如何主动识别高风险路段，在大量事故发生前进行干预，已成为一个具有科学挑战性和实际意义的课题。

为了实现对道路安全的主动评估，替代安全指标（SSM）受到了越来越多的关注。SSM通常代表间接的、非事故的指标，用于捕捉与事故相关的异常变化或事件（如速度变化）。越来越多的证据表明，事故风险与不当的驾驶行为密切相关。在众多行为因素中，驾驶速度已被深入研究，并被证明是导致道路伤害和死亡的最具影响力的因素之一。例如，美国国家安全委员会（NSC）报告称，2022年超速导致美国29%的道路交通死亡事故。此外，许多研究也表明，设计不良、事故风险较高的道路往往表现出与低风险道路不同的速度分布和特征，这使得空间聚合的速度信息成为评估事故风险的潜在指标。

然而，以往的研究主要使用GPS设备从有限样本中收集驾驶数据，由于数据获取困难，速度变化与交通安全之间关系的大规模评估仍未得到充分探索。随着联网车辆（CV）成为现实，私人数据公司收集了海量的驾驶轨迹和行为数据，并已实现商业化。这些商业数据集使得能够大规模评估速度变化及其与事故风险的关系，减轻了交通管理部门和从业者的数据收集负担。尽管前所未有的大量驾驶数据变得可用，但这些数据集庞大而复杂，管理和分析这些大型复杂数据集带来了新的计算挑战。此外，我们对于是否以及如何利用商业化的CV数据有效表征速度变化，并基于空间聚合的速度指标主动识别高风险路段的理解仍然有限，需要进一步研究。

研究方法：利用大数据与机器学习构建主动安全评估框架

为了填补上述研究空白，本研究以英国牛津郡为案例，探索了从市场可获得的CV数据生成的不同速度变化特征与三种常用安全性能指标之间的关系。研究提出了一个四步研究框架，旨在利用市场可获得的CV数据，通过分析和建模三种安全性能指标与十个速度变化特征之间的关系，释放其在主动道路安全评估中的潜力。

数据来源与处理

研究主要基于四种类型的数据：基于CV的大规模移动数据、历史事故记录、道路网络和交通量数据。其中，一个月的CV数据（2022年7月）从商业数据供应商处获得，用于描绘道路上的速度变化。此外，还从开放数据源获取了支持性数据集，包括用于绘制道路地图的道路网络文件、用于描绘事故风险的五年（2018-2022年）事故记录，以及用于量化交通暴露量的交通量数据。

为了确保公平和精确地识别高风险位置，研究道路被划分为同质的、等长的路段。根据先前研究的建议，研究将其重新划分为四分之一英里（约400米）的路段，这已被证明能有效适应事故数据的定位误差并捕捉事故风险。为了消除环岛和交叉口的影响，这些道路元素及其相邻路段被排除在本研究之外。

安全性能指标与速度变化特征的量化

为了全面表征道路的事故风险，研究采用了三种广泛使用的安全性能指标：事故频率、事故率和等效财产损失（EPDO）事故率。事故频率是最简单的量化事故风险的指标，定义为特定路段或交叉口报告的事故数量。为了消除交通量的影响，研究采用了事故率指标，将事故频率基于交通暴露量进行标准化。此外，为了考虑事故严重程度，研究还采用了EPDO事故率，该指标根据事故严重程度为事故分配不同的权重。

为了量化道路上的速度变化，研究基于一个月的CV数据，从现有文献中整理并生成了十个与速度相关的变量。这些变量大致可分为三类：第一类是用于速度分析的基本统计数据，包括平均值、85百分位数、93百分位数和均方根；第二类是量化速度数据方差和分布的指标，包括方差、85百分位数与平均值的差值、上速度系数和偏度指数；第三类是旨在量化交通流中断和不稳定性的变量，包括加速度噪声和停车频率。为了捕捉速度变化的时间动态，研究进一步从三个时间窗口生成了这些变量：高峰时段、非高峰时段和周末。

分析方法与模型评估

为了研究安全性能指标与速度变化特征之间的统计关系，研究计算了斯皮尔曼相关系数。此外，研究还实施了不同的机器学习方法，包括分类与回归树（CART）、随机森林（RF）和极限梯度提升（XGBoost），来模拟速度变化特征与安全性能指标之间的关系。为了解释建模输出，研究采用了SHapley加法解释（SHAP）方法。为了有效评估模型的准确性和稳健性，研究应用了五折交叉验证，并生成了平均绝对误差（MAE）和均方根误差（RMSE）作为评估指标。此外，研究还提出了一个额外的指标——检测准确率（DA），用于评估模型在识别高风险路段方面的有效性。

研究结果：速度变异特征与事故风险的关联性分析

描述性统计与相关性分析

经过重新分段后，研究共纳入了157个同质的、四分之一英里长的单车道“A”级道路路段。五年的事故数据显示，研究路段共报告了163起事故，平均每个路段在五年期间发生1.038起事故。从CV数据中，研究共选择了1,716,431个速度观测值来量化这157个道路路段的速度变化。平均而言，每个路段基于从5,144次CV行程中收集的10,933个速度观测值进行评估。

相关性分析结果表明，所有速度变化特征与事故频率均显示出微弱但具有统计学意义的正相关。与事故率的相关性也发现了类似的结果，但上速度系数（CUSS）除外。然而，没有发现任何特征与EPDO事故率相关。这一结果表明，速度变化特征可能有助于识别事故量高（事故频率）或发生事故可能性高（事故率）的“高风险”路段，但无法捕捉事故严重程度（EPDO事故率）的影响。

机器学习建模结果

为了评估CV生成的速度变化特征是否以及能在多大程度上识别高风险路段，研究构建了两组模型（A组和B组），使用三种建模方法（CART、RF和XGBoost）来预测三种安全性能指标。A组模型基于14个解释变量构建，B组模型基于34个解释变量构建，其中包括三个时间窗口的30个时间分解速度特征。

总体而言，B组模型在估计所有安全指标方面均取得了优于A组模型的性能。这表明，捕捉速度变化的时间动态是提高模型性能的有效方法。在B组的三种模型类型中，随机森林（RF）在预测事故频率和事故率方面优于CART和XGBoost，而XGBoost在预测EPDO事故率方面取得了更好的结果。具体而言，RF在模拟事故频率时产生了最小的RMSE和MAE，并实现了96.0%的优异检测准确率（DA）。在模拟事故率时，RF和XGBoost取得了相当的结果。对于EPDO事故率，XGBoost取得了明显优于CART和RF的结果，RMSE和MAE小得多，并且88%的预测值排名前20%的路段与观测值排名前20%的路段相匹配。

因子重要性评估

为了评估解释变量对事故风险的影响，研究为表现最佳的模型生成了SHAP汇总图。当模拟事故频率时，高峰时段的加速度噪声（Peak Acc_noise）表现出最强的显著正向效应。这表明，在高峰时段具有更多激进加速事件的路段与更多的事故相关。与CV样本量相关的变量，如高峰和非高峰时段的CV行程数以及高峰时段的速度观测值数量，也显示出显著的正向效应。此外，周末的高速度变化（由Weekend variance和Weekend D2M量化）也具有正向影响，这意味着周末更大的速度方差与更多的事故相关。

当模拟事故率时，与CV样本量相关的变量以及所有三个时间窗口的加速度噪声都被发现具有显著的正向效应。这意味着更高的交通量和更频繁的激进加速事件是事故率增加的强预测因子。此外，周末的偏度指数（Weekend SI）具有负向效应，这表明与高速观测值相比，低速观测值的分布范围更大与更高的交通风险相关。

当模拟EPDO事故率时，某些特征，如高峰时段的CV行程数（Peak CV trips）和周末的速度方差（Weekend variance），表现出明显的正向影响。这意味着高峰时段更高的交通量和周末更大的速度方差与更高的EPDO事故率密切相关。相比之下，所有其他变量的SHAP值主要聚集在零附近，只有少数实例显示出正向或负向效应。

研究结论与讨论：开启主动道路安全评估的新篇章

速度变化与事故风险

本研究通过利用从CV和连接资产收集的大量移动数据，系统地检验了从一个月CV轨迹数据生成的10个空间聚合速度特征与三种常用安全性能指标之间的关系。通过相关性分析和机器学习建模，本研究证明了基于CV的速度观测是支持道路安全评估的宝贵数据源。利用一个月CV数据生成的速度特征，表现最佳的模型在识别由五年事故频率确定的高风险路段方面达到了96.00%的准确率，在识别由五年事故率确定的高风险路段方面达到了53.33%的准确率。这些结果表明，空间聚合的速度变化特征，特别是按时间窗口分解时，可以成为识别事故量多（事故频率）或车辆更可能卷入事故（事故率）的路段的有效SSM。

在所检查的CV生成特征中，有三类在模拟事故频率和事故率时被证明具有显著影响。正如预期的那样，交通量等效变量（如所有时间窗口的CV行程）在两种模型中都具有显著影响。加速度噪声也被发现在两种模型中都具有显著影响，这与先前关于驾驶急动度的研究一致。此外，速度观测值的方差对事故风险显示出显著影响。低速观测值（低于50百分位数）的分布范围远大于高速观测值（尤其是工作日）的路段，通常与更高的事故频率和事故率相关。

对商业地理空间数据在交通管理中应用的再思考

本研究主要基于商业CV数据集。事实上，随着交通领域大地理空间数据的兴起，私人数据公司收集了海量的驾驶轨迹和行为数据，并已实现商业化。这些商业大数据不仅在事故建模方面，而且在促进其他交通管理任务方面都提供了无与伦比的机会。然而，与它们的使用相关的许多新挑战也正在出现。虽然使用商业数据可以显著减轻交通管理部门的数据收集负担和成本，但它也引入了许多与数据质量、有效性、可用性以及是否符合数据保护政策和限制等相关的“不确定性”。因此，未来的努力非常需要在数据供应商、研究人员、政策制定者和从业者之间培养善意、信任和承诺，并在商业供应商和交通管理部门之间实现可持续的供需关系。

局限性与未来工作

尽管本研究在释放CV生成的速度特征在主动道路安全评估中的潜力方面做出了新的贡献，但它仍然存在一些局限性，可以从以下角度进一步改进。首先，本研究仅检查了一种类型的道路——单车道“A”级道路。未来的研究应评估CV生成的速度特征在不同道路等级和交叉口类型中的有效性。其次，本研究建立在一个月的CV数据之上。未来的努力可以尝试使用不同数量的数据（一天、一周、一个月、六个月）生成SSM，并评估其性能，以确定生成SSM的最佳数据量。第三，本研究仅检查了速度变化特征与基于事故的安全指标之间的关系。这些与速度相关的SSM是否以及在多大程度上能够捕捉事件和险兆事故，需要进一步探索。最后但同样重要的是，为了实现商业大数据在交通管理中的可持续采用，需要努力了解这个新兴的数据行业，通过团结不同的利益相关者来探索CV数据的力量并规范其使用，从而促进数据行业的增长和繁荣。

总结

本研究的主要发现概括如下：

•
速度变化特征，特别是从不同时间窗口生成的特征，是模拟事故频率和事故率的宝贵SSM。然而，它们在模拟EPDO事故率方面的表现有限。
•
在所检查的速度特征中，高峰时段的加速度噪声和周末速度变化的度量（Weekend variance和Weekend D2M）显著影响了事故频率。此外，所有三个时间窗口（高峰、非高峰和周末）的加速度噪声和周末偏度指数强烈影响了事故率建模。这些结果表明，这些特征是评估单车道“A”级道路事故风险的有效SSM。
•
市场可获得的CV数据是描绘道路速度动态和生成与速度相关的SSM的宝贵来源。然而，与CV数据使用相关的不确定性需要仔细考虑和解决，以实现这种商业大数据在交通管理中的可持续采用。

热点排行

新闻专题