基于YOLO-LIO增强型车辆检测框架的实时交通监控系统优化研究

《Algorithms》：Cross-Impact Analysis with Crowdsourcing for Constructing Consistent Scenarios

【字体：大中小】 时间：2026年01月05日 来源：Algorithms 2.1

编辑推荐：

　　本文提出一种改进的YOLO-LIO（You Only Look Once-Light Traffic Intercept and Observation）车辆检测框架，通过多尺度检测、虚拟区域过滤和高效预处理技术（如灰度转换、拉普拉斯方差计算和中值滤波），显著提升复杂交通场景下的小目标检测精度。该系统在GRAM Road-Traffic Monitoring（准确率99.55%）、KITTI（94.21%）等五大数据集上验证了其优越性，并成功部署于Jetson Nano嵌入式平台，为智能交通系统（ITS）提供高精度、低功耗的实时车辆检测、计数及速度估计解决方案。

摘要

交通违规和道路事故仍是构建安全高效交通系统的重大挑战。尽管技术不断进步，提高车辆检测精度和实现实时交通管理仍是关键研究重点。本研究提出YOLO-LIO增强型车辆检测框架，通过改进小目标检测和优化实时部署来应对这些挑战。该系统引入多尺度检测、虚拟区域过滤和高效预处理技术，包括灰度转换、拉普拉斯方差计算和中值滤波，在保持高性能的同时降低计算复杂度。YOLO-LIO在五个数据集上进行了严格评估，包括GRAM道路交通监控（99.55%准确率）、MAVD-Traffic（99.02%）、UA-DETRAC（65.14%）、KITTI（94.21%）和作者数据集（99.45%），在不同交通场景下 consistently 展现出卓越的检测能力。系统额外功能包括基于虚拟区域内双线检测策略的车辆计数，以及基于帧位移和相机标定的速度检测。这些增强使系统能够高精度监控交通流和车辆速度。YOLO-LIO已成功部署于紧凑节能的硬件平台Jetson Nano，证明其适用于实时低功耗嵌入式应用。所提出系统提供了一种准确、可扩展且计算高效的解决方案，推动了智能交通系统的发展并改善了交通安全管理。

引言

鉴于交通事故持续发生，交通监控系统成为改善交通流管理和确保道路安全的基本组成部分。大多数事故源于驾驶员未能遵守限速或交通规则，最终导致灾难性后果。除了直接伤害受害者外，这些事件还具有社会破坏性，由此产生的交通拥堵会扰乱其他道路使用者的出行并打乱其日常生活。这些挑战需要一个有效的交通监控系统，通过预防事故和交通拥堵来增强道路安全。剩余的交通违规行为由于驾驶员纪律缺乏而持续发生，通常威胁公共安全。同样，传统监控系统在实时检测和违规跟踪方面存在缺陷。传统系统面临的主要挑战是其检测和分类拥挤复杂交通场景中不同车辆类别的能力有限。这需要开发更先进、技术驱动的解决方案，能够实时操作。计算机视觉和人工智能（更具体地说是基于深度学习的物体检测算法）提供了克服这些限制的许多机会。深度学习技术（Fast R-CNN、YOLOv3、YOLOv4）已成功用于交通监控，因为它们能自动提取特征来检测物体。尽管该领域取得了显著进展，但在检测物体（包括小物体）或复杂交通场景中的汽车方面仍然存在性能限制，这对于提高系统性能至关重要。解决这些问题对于减少事故、提高交通效率以及实现车辆搜捕至关重要，所有这些都将有助于建立一个更安全、更有活力的交通生态系统。我们提出了一种新颖的YOLOv3算法适应和增强版本，称为YOLO-LIO（轻量交通拦截与观察），以应对上述挑战。首先，它过滤掉背景图像噪声，保持视频源捕获区域的清洁。然后，应用YOLO-LIO模型准确识别物品的位置和类别。此外，YOLO-LIO可以估计车辆速度和检测到的车辆数量。该系统有助于使用YOLO-LIO准确检测车辆并建立有效的交通监控协议，这对于减少交通拥堵和实现高效交通管理至关重要。在此背景下，图1描绘了摄像头位于完美高度4米的3D模型的位置和设计。虚拟区域配置为仅专注于检测在道路上行驶的车辆，摄像头战略性地定位以确保检测限制在指定虚拟区域内。这种方法通过减少计算开销和功耗显著提高了系统效率。这提供了一个高效且低开销的检测过程。该算法在解决当前交通检测方法的缺陷以及建立一个一致、易于实施的方案以在实际时间内处理复杂交通条件方面具有重要意义。这 inherently 使得实时计算和汽车检测精度具有挑战性，使YOLO-LIO成为一个复杂的、经过性能验证的交通观察者。主要贡献包括：小目标检测能力：改进小物体（远处车辆）的检测以提高可靠性；增强的多尺度细节：适应物体在广泛范围和变化中检测的复杂架构，为该系统在复杂设置中良好工作铺平道路；残差块集成：引入残差块有助于特征提取并防止训练期间梯度消失，从而提高整体检测精度；实时应用优化：实现高处理速度，使其适用于时间关键型应用，如智能交通和交通管理。

相关工作

最近的一些研究侧重于提高物体检测模型的效率和鲁棒性，特别是针对复杂交通环境中经常出现的小型和多尺度物体。程先宝等人提出了一种基于YOLOv3的框架，用双线性上采样和双分割网络取代传统的两步下采样卷积，从而为小物体和大物体保留更丰富的空间特征。通过将尺寸识别模块和残差连接纳入fire模块，他们的系统成功解决了梯度消失问题，并将小物体识别精度显著提高了高达20%，在检测精度（从82.4%到88.5%）、召回率（从84.6%到91.3%）和平均精度（从95.5%到97.3%）方面取得了显著增益。类似地，沈灵芝等人提出了为智能车辆系统设计的增强功能，引入了K-means–GIoU锚点策略、专用的小物体检测分支以及减少背景干扰的特征图裁剪模块。他们的方法在KITTI数据集上的mAP比标准YOLOv3提高了2.86%，在小尺度道路目标上实现了更强的性能，同时保持实时处理。更近期的研究通过关注模型效率和面向边缘的优化扩展了这些想法，设计了轻量级YOLO变体，用于部署在受限硬件平台上，如Jetson Nano、树莓派和嵌入式ARM SoC。这些工作强调了架构简化、张量压缩和多尺度融合对于在精度与实时边缘性能之间取得平衡的重要性，这种方法与YOLO-LIO的设计理念一致。并行地，现代智能交通系统（ITS）文献强调系统可扩展性和互操作性，特别是将检测模型集成到大数据、云边管道和I2X/V2X通信生态系统中。这些研究表明，像YOLO-LIO这样的检测模型如何能够为更大的基础设施系统做出贡献，这些系统涉及实时数据聚合、交通分析和协同车辆基础设施通信。将这些见解纳入YOLO-LIO进一步验证了其相关性，不仅作为一个高精度检测模型，而且作为一个适用于新兴ITS和智慧城市部署的可扩展组件。

YOLOv3架构

YOLOv3是一种单阶段物体检测算法，将检测处理为回归任务，直接预测多个物体的类别概率和边界框坐标，而不需要像R-CNN中使用的区域提议网络。这种方法显著提高了检测效率，同时即使对于不同类型的物体也能保持高精度。YOLOv3的特征提取由DarkNet-53驱动，它利用受残差网络启发的五个残差块来解决更深网络中梯度消失的问题。这些残差连接有助于高效的特征学习，使模型能够在深度架构中有效运行。在YOLOv3中，输入图像被调整为416 × 416，更深层将特征图下采样32倍，而浅层保留更精细的细节。所提出的模型结合了一个特征金字塔网络（FPN），允许在不同尺度（8倍、16倍、32倍）下采样特征图，以增加其识别小、中、大物体的能力。图2展示了这些组件如何协同工作，在YOLOv3中实现速度和精度的平衡，包括DarkNet-53主干和多尺度检测头。图2展示了网络如何通过使用强大的深度特征提取主干（DarkNet-53）和多尺度检测来平衡速度和精度。DBL块（包括卷积Conv、批量归一化BN和Leaky ReLU）是更快特征提取和更低计算成本的基本构建块。

特征提取

在YOLOv3中，特征提取由DarkNet-53主干执行，首先将输入图像x通过一个DBL块，从而开始检测过程：DBL(x) = σ(BN(Conv(x)))，其中σ是Leaky ReLU激活函数。在这个初始DBL块之后，网络使用残差块来学习更深层的特征表示。一个残差块由两个DBL层组成，并有一个残差连接将输入加回到输出：ResUnit(x) = x + DBL(DBL(x))。这种残差连接保证了梯度有效地通过多个层传播，从而解决了其他更深网络面临的梯度消失问题。YOLOv3的特征提取主干采用三种不同的深度残差块：Res8块：一组8个残差单元应用于输入：x₃= Resn(DBL(x), 8)；Res2块：一个较浅的块，有2个残差单元：x₄= Resn(x₃, 8)；Res1块：最终的残差块，有一个单元：x₅= Resn(x₄, 4)；每个残差块的输出被保留用于检测头。

YOLOv3中的多尺度检测

YOLOv3利用多尺度检测来检测不同大小的物体。网络在多达三个抽象级别输出物体边界框。它对更深层的特征图进行上采样，并将它们与较浅的特征图连接起来。尺度1（小物体）：最小的物体使用最深的特征图检测：scale₁= Conv(DBL(x₅))；尺度2（中物体）：尺度1的特征图上采样并与中间层特征（Res2）组合以检测中等大小的物体：scale₂= Conv(DBL(Upsample(scale₁) + x₄))；尺度3（大物体）：最浅层（Res1）的特征与尺度2的上采样特征图连接用于大物体检测：scale₃= Conv(DBL(Upsample(scale₂) + x₃))。三个不同的检测头允许YOLOv3在不同分辨率下检测物体，帮助它在同一图像中识别小物体和大物体。YOLOv3的每个尺度预测以下三个输出：{scale₁, scale₂, scale₃}。网络被训练为在这三个尺度中的每一个返回边界框坐标和类别概率，使用锚框来适应不同大小和纵横比的物体。

方法

多线程处理框架

采用多线程方法并行运行预处理任务，从而分配工作负载并提高实时条件下的系统响应能力。为了解决常见的多线程缺点，如复杂性、调试困难、共享内存风险和潜在线程冲突，工作流被设计为每个线程在隔离的数据上操作，不访问全局变量或共享内存区域。这避免了竞争条件并确保了线程稳定性，即使在像Jetson Nano这样的受限边缘硬件上。任务被划分为独立的、不交互的单元：线程1处理帧捕获和虚拟区域初始化；线程2执行预处理操作，如灰度转换、拉普拉斯方差分析和可选的中值滤波；线程3和4使用YOLO-LIO对预处理后的帧执行推理。由于每个线程处理自己的数据副本且不需要线程间通信，该设计保持轻量级、稳定，并且非常适合嵌入式实时部署。这种任务的结构化分离减轻了多线程的典型缺点，同时仍然提供了预期的性能优势。

基于虚拟区域的感兴趣区域（ROI）

我们定义四条线来引入虚拟区域，将摄像头的检测限制在一个四边形区域内。这个虚拟区域也充当感兴趣区域（ROI），即图像内有意集中检测的预定义区域。使用ROI帮助系统忽略不相关的背景区域并减少计算工作量，从而提高YOLO-LIO的整体性能并符合本研究的目标。在图3中，蓝线表示虚拟区域，即预期进行车辆检测的区域。以这种方式限制搜索空间确保检测仅在帧的相关部分执行，使过程更加高效。定义虚拟区域的四边形的边表示为四个坐标点的集合：P = ((x₁, y₁), (x₂, y₂), (x₃, y₃), (x₄, y₄))。车辆必须位于此蓝色区域内才能被检测到。这种方法减少了不相关的检测，并通过在指定操作区域内实现更准确的车辆跟踪和速度估计来增强YOLO-LIO的性能。

图像预处理流程

手稿中使用的灰度转换公式基于NTSC（国家电视系统委员会）定义并经ITU-R BT.601标准采用的亮度模型。这些系数，红色0.299，绿色0.587，蓝色0.114，并非随意选择；它们是根据人类视觉感知研究经验得出的。具体来说，人眼对绿光明显更敏感，对红光中等敏感，对蓝光最不敏感。因此，绿色在感知亮度中贡献最高权重，其次是红色和蓝色。加权和公式：I = 0.299R + 0.587G + 0.114B 因此反映了人类光感受器的适当生理反应，并产生了以感知准确的方式保留视觉亮度的灰度图像。拉普拉斯方差方法通过测量其拉普拉斯响应的统计方差来量化图像内强度变化的程度，这反映了边缘和精细细节的存在。高方差表示强烈的像素强度波动，对应于清晰、聚焦良好的图像，而低方差表明平滑过渡和潜在的模糊。拉普拉斯方差σ2定义为：σ2 = (1/n) Σ_p=1ⁿ(L_p- L?)2，其中：σ2表示拉普拉斯值的方差；L_p是像素p处的拉普拉斯值；L?是图像上拉普拉斯值的平均值；N是图像中的总像素数。必须将拉普拉斯方差与均方误差（MSE）区分开来。方差测量拉普拉斯响应围绕其均值的分布，从而指示图像清晰度，而MSE测量回归任务中预测值和目标值之间的平方差。在本研究中，拉普拉斯方差专门用作预处理期间的图像质量评估指标，与先前文献中不相关的损失函数定义无关。中值滤波方法是一种非线性数字滤波技术，可从图像或信号中去除噪声。它通过移动一个窗口（或核）跨越图像，用窗口内所有像素的中值替换中心像素。窗口大小通常是奇数像素的正方形。中值滤波器的方程可以表示如下：f?(a,b) = m{f(c,d)}，其中：f?(a,b)是位置(x,y)处的输出（滤波后）图像；f(c,d)是(x,y)处像素邻域中的像素值；m{}表示以(x,y)为中心的窗口中像素值集合的中值。

车辆检测框架

车辆检测涉及在图像或视频帧中识别和定位车辆。在计算机视觉和人工智能中，这项任务通常依赖于算法和机器学习模型来分析视觉数据并确定车辆的存在和位置，以及在需要时的额外信息。实时车辆检测使交通当局能够监控交通流、识别拥堵模式并优化交通控制系统。整体系统框架如图4所示。在应用图4所示的框架之前，多线程策略将特定任务分配给各个CPU核心，确保硬件资源的有效利用。预处理首先将输入图像转换为灰度以减少数据复杂性并加速后续检测阶段。接下来，应用拉普拉斯方差方法评估图像清晰度。当图像质量较低时，应用中值滤波以减少噪声并提高视觉清晰度；否则，跳过此阶段以避免不必要的计算。这种选择性预处理步骤提高了检测精度，同时保持了处理效率。预处理之后，使用YOLO-LIO检测框架来检测并将物体分类为四个预定义类别：摩托车、汽车、公交车和卡车。YOLO-LIO为每个识别出的物体输出边界框，最终的检测流程平衡了精度和计算速度，使其适合实时部署。我们设置中的摄像头安装在4米的高度。这种视角使车辆在帧中显得相对较小，这与YOLO-LIO多尺度检测架构的设计相一致，并有助于实现更高效和稳定的检测性能。我们引入YOLO-LIO算法来应对跨多个尺度检测物体的挑战，例如从高处摄像头看到的微小车辆。图5展示了YOLO-LIO架构，突出了相对于YOLOv3的几个关键改进。更高的输入分辨率（640 × 640）：YOLO-LIO将输入大小从YOLOv3的416 × 416增加到640 × 640，以保留更精细的空间细节。动机是通过为模型提供更多高分辨率信息来改进小物体检测，特别是摩托车和远处车辆。额外的检测尺度（第四尺度）：YOLOv3使用三个检测尺度，但YOLO-LIO增加了第四个尺度，专门为帧中最小的物体设计。这个决定是由交通摄像头场景驱动的，其中远场车辆通常只占据几个像素。增加的尺度扩展了感受野的覆盖范围，并提高了跨极端尺寸变化的检测鲁棒性。增强的小物体检测特征融合：下采样8倍的特征图被上采样并与4倍特征融合，用更深层的语义信息丰富浅层。引入这种有针对性的融合是为了在不产生高计算成本的情况下加强小车辆的检测。额外的残差块（Res4）：YOLO-LIO在更精细的尺度（尺度4）上加入了两个额外的残差单元。这种修改在提取详细特征的地方增加了表示深度，提高了网络捕捉细微车辆模式的能力。该设计选择平衡了精度和计算效率，确保适用于Jetson Nano上的部署。这些改进共同产生了一个能力更强的多尺度检测器，使YOLO-LIO能够以比YOLOv3更高的精度和稳定性识别不同大小的车辆。

YOLO-LIO特征提取与扩展残差块

特征提取过程遵循YOLOv3的一般结构，但经过修改以支持选定层中更深层、更具上下文感知的特征。YOLO-LIO采用四个不同的残差块，Res2、Res8、Res8和Res4，有意选择以创建平衡的特征层次结构：Res1块：一组2个残差单元应用于输入：x₂= Resn(DBL(x), 2)；Res2块：一个较浅的块，有8个残差单元：x₃= Resn(x₂, 8)；Res8块：一个更深的块，有8个残差单元：x₄= Resn(x₃, 8)；Res4块：最终的残差块，有4个残差单元：x₅= Resn(x₄, 4)。这种残差单元的结构化分布是经过有意设计的，而不是任意的，以平衡深度、特征多样性和计算约束。

YOLO-LIO中的四尺度多尺度检测

YOLO-LIO通过生成四个不同尺度的输出来实现多尺度检测以检测不同大小的物体。我们首先对更深层的特征图进行上采样，并将它们与较浅的特征图在多层级深度特征结构内融合。每个尺度的输出因此针对特定大小范围内的物体识别，使网络擅长检测小、中、大和最大物体。尺度1（最大物体）：尺度1输出是通过对最深的特征图（Res4）进行上采样并将其与Res3的特征合并创建的：scale₁= Conv(DBL(x₅))；尺度2（较大物体）：尺度1的特征图上采样，与Res2特征合并：scale₂= Conv(DBL(Upsample(scale₁) + x₄))；尺度3（中物体）：尺度2的特征图上采样，与Res1特征融合：scale₃= Conv(DBL(Upsample(scale₂) + x₃))；尺度4（最小物体）：最小尺度的输出从尺度3的上采样特征获得：scale₄= Conv(DBL(Upsample(scale₃) + x₂))。YOLO-LIO最终输出四个多尺度预测，这考虑了多尺度区域检测中不同级别的特征抽象。网络通过对来自各层的组合特征图应用一系列卷积层来生成这些输出：{scale₁, scale₂, scale₃, scale₄}。拥有多尺度上下文允许YOLO-LIO检测更多不同尺度上的物体，有更多时间确保YOLO-LIO的准确性。

使用双线虚拟区域的车辆计数

作者使用虚拟区域来确保车辆检测针对特定区域，从而提高车辆识别精度和计算效率。该虚拟区域使用两条水平虚拟线：顶部一条用于“签到”检测，底部一条用于“签出”检测。通过使用跟踪入口和出口的双线系统，它可以准确计数车辆并确定其在区域内的移动。采用YOLO-LIO检测框架来检测和标记视频流中的物体。顶线是入口；当车辆通过它时，系统将其签入并监控其移动。当汽车通过底线时，车辆被“签出”，跟踪过程完成。这确保了仅通过顶线或底线的不同车辆不会被计数，从而减少了误报和任何可能不相关的内容。该系统在车辆穿过虚拟区域时，利用顶线（签入）和底线（签出）有效地跟踪、分类和计数每辆车。这种方法保证了出色的车辆检测和跟踪精度，使其非常适合交通和车辆流监控以及智能交通系统应用。

基于位移的速度估计与验证

本研究中的车辆速度估计是通过测量检测到的车辆在连续视频帧中两个位置之间的位移，使用标准欧几里得距离模型来执行的。设(a,b)和(c,d)表示图像平面中跟踪车辆的初始和最终像素坐标。像素位移D计算为：D = √[(a - c)2 + (b - d)2]。为了确保时间稳定性，系统在15个连续帧上跟踪车辆位移，这对应于固定的时间间隔T = 0.5秒，基于视频流的已知帧率。帧率信息直接从相机元数据获取，确保测量之间的精确时间对齐。然后车辆速度V计算为：V = C × (D / T)，其中D代表测量的像素位移，T表示经过的时间间隔，C是像素到现实世界的转换因子，用于将像素位移转换为物理距离（米）。这个转换因子通过相机标定得出，并取决于相机安装参数，包括安装高度、视角、焦距和内在标定参数。为了验证所提出的速度估计方法的准确性，使用Intel RealSense D455深度相机作为外部测量设备。RealSense D455提供同步的RGB和深度数据，能够基于深度信息可靠地估计现实世界物体位移。从D455获得的深度测量值被用作真实速度参考，以验证所提出的基于YOLO-LIO的系统产生的估计速度。在实验期间，RealSense D455与RGB相机刚性安装在一起并经过标定，以确保检测区域和深度测量区域之间的空间对齐。将YOLO-LIO框架估计的速度值与在同一时间间隔内来自RealSense D455的基于深度的位移测量值进行比较。分析产生的速度偏差以量化估计精度，并在真实交通条件下验证所提出方法的有效性。

算法比较与系统集成

YOLOv3算法1使用三个检测尺度来识别小、中、大物体，从而专注于实时物体检测。它利用三个不同深度的残差块，

热点排行

新闻专题