
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于REPTree森林与时间缺失数据填补的混合机器学习框架在交通流量预测中的应用与性能提升
【字体: 大 中 小 】 时间:2025年09月15日 来源:CMES - Computer Modeling in Engineering and Sciences
编辑推荐:
本研究针对交通流量预测中普遍存在的数据缺失问题,提出了一种结合时间缺失数据填补(TMDI)和降噪剪枝树森林(REPTree Forest)的混合方法REPTF-TMDI。研究利用2012–2018年美国州际公路每小时交通数据,引入时间上下文感知的填补策略与集成学习模型,显著提高了在5%–40%缺失率下的预测精度,平均相关系数R提升11.76%,RMSE与MAE分别改善68.62%和70.52%。该方法为智慧交通管理与可持续城市交通系统提供了可靠的数据驱动解决方案。
在城市交通管理领域,准确预测交通流量(Traffic Flow Prediction, TFP)是优化路网运行、缓解拥堵和实现智能交通系统的关键。然而,现实中的交通数据集常常面临严重的缺失数据问题,这源于传感器故障、通信中断或数据采集漏洞等多种因素。缺失数据不仅降低了模型的训练质量,还直接影响预测精度与可靠性,进而阻碍可持续交通目标的实现。尽管已有多种机器学习和深度学习模型被用于交通预测,但它们往往难以有效处理数据缺失问题,特别是时间序列数据中的动态缺失模式。因此,开发一种能够同时处理数据填补与高精度预测的混合方法,已成为智能交通系统研究中的迫切需求。
在此背景下,本研究提出了一种名为REPTF-TMDI的新型混合框架,它融合了时间缺失数据填补(Time-based Missing Data Imputation, TMDI)和降噪剪枝树森林(REPTree Forest, REPTF)方法。该方法旨在提升交通流量预测的准确性,并在存在大量缺失数据的情况下仍保持稳健性能。研究成果已发表在《CMES - Computer Modeling in Engineering and Sciences》上,为交通数据建模与工程应用提供了重要参考。
为开展本研究,作者采用了以下几项关键技术方法:首先,使用时间缺失数据填补(TMDI)方法,依据时间邻近性和目标变量一致性对缺失值进行填补,支持前向填补、后向填补与数值平均策略;其次,采用降噪剪枝树(REPTree)作为基础学习器,通过方差减少策略进行节点分裂,并利用装袋(Bagging)集成构建REPTree森林,以提升泛化能力与预测稳定性;此外,特征工程方面包括从原始日期时间变量中提取小时、星期、月份等时间特征,并将假期信息进行二值化处理;模型评估则使用相关系数?、均方根误差(RMSE)、平均绝对误差(MAE)等多种指标,在多个缺失率场景下进行系统验证;数据集采用美国明尼苏达州际公路的公开交通数据(MITV Dataset),包含2012–2018年共48,204条小时级别记录,涵盖交通流量、天气条件和时间特征等多维变量。
研究结果主要包括以下几个方面:
一、提出时间缺失数据填补(TMDI)方法并验证其有效性
TMDI方法通过利用时间相邻观测值进行填补,在5%–40%的缺失率下均显著优于传统均值/众数填补和用户指定常值填补方法。在缺失率为5%时,REPTF-TMDI的R达到0.9683,而传统方法仅为0.7910和0.9553。随着缺失率增加,TMDI仍能保持较高的预测一致性,表明其具备良好的时间模式捕捉与数据重建能力。
二、REPTree森林模型在交通预测中表现出优越性能
研究表明,REPTree森林在完全数据下的基准性能达到R=0.9695、MAE=289.26、RMSE=486.27。在与14种现有先进方法的对比中,该模型在RMSE和MAE上分别实现了68.62%和70.52%的提升,显著优于包括长短期记忆网络(LSTM)、随机森林(RF)、支持向量回归(SVR)等传统与深度学习方法。
三、特征重要性分析揭示关键预测因子
通过互信息(Mutual Information)分析发现,一天中的小时(重要性得分1.413)、温度(0.401)和星期几(0.257)是对交通流量预测最具影响力的特征,而假期和降雪等因素影响较小。这一发现为后续特征选择与模型优化提供了依据。
四、模型具有良好的泛化能力与鲁棒性
在额外四个不同地区的交通数据集上的测试表明,REPTF-TMDI能够达到R值0.86–0.98的预测精度,说明该方法适用于多种交通环境与地域条件,具备较强的推广能力。
研究结论与讨论部分强调,REPTF-TMDI作为一种融合数据填补与集成学习的混合框架,不仅在交通流量预测中表现出色,还能有效应对现实世界中常见的数据缺失问题。其方法的核心优势在于时间感知的填补策略与REPTree森林的高解释性、快速训练能力以及稳定性。该研究为智慧交通系统的实际部署提供了可靠技术支撑,尤其在促进城市可持续交通发展、减少拥堵与降低碳排放方面具有积极意义。未来工作可进一步探索该方法在实时交通预测、多模态数据融合以及跨城市推广中的应用潜力。
生物通微信公众号
知名企业招聘