基于RNN与Swin Transformer的无人机智能交通监控系统在动态环境中的创新应用与性能评估

【字体: 时间:2025年10月14日 来源:Frontiers in Neurorobotics 2.8

编辑推荐:

  本文系统综述了基于无人机(UAV)平台的智能交通监控技术,创新性地整合了循环神经网络(RNN)与Swin Transformer架构,通过多阶段处理流程(包括对比度增强、区域聚类优化分割、混合损失函数优化检测及DeepSORT多目标跟踪),有效解决了空中影像中车辆运动不对称、尺度变化和空间不一致等挑战。在AU-AIR、UAVDT和VAID三大基准数据集上实现了高精度检测(0.913–0.930)、跟踪(0.881–0.901)和分类(91.25–92.75%),显著提升了动态环境下的实时自适应决策能力,为智慧城市交通管理和应急响应提供了可靠技术支撑。

  

引言

近年来,深度学习、Transformer架构和注意力驱动视觉模型的突破性进展,显著推动了复杂视觉环境中目标检测、分类和多目标跟踪技术的发展。这些算法进步为现代自主系统和智能交通基础设施提供了核心支撑,能够在多变条件下实现更精准的车辆识别和行为分析。然而,传统地面交通监控系统依赖固定摄像头和基础设施,存在遮挡、空间覆盖范围有限以及对多样化城市布局适应性差等问题,限制了其在智慧城市和应急响应应用中的大规模灵活监控需求。
无人机(UAV)作为一种互补的感知模态,通过提供移动、高分辨率观测和动态视场控制,有效解决了这些局限性。结合深度学习和强化控制策略,无人机能够实现可扩展的视频理解和自适应数据采集,用于交通监控。然而,空中影像也带来独特的技术挑战,包括杂乱背景、不规则物体尺度、不对称空间分布和动态运动,这些因素使检测任务复杂化并增加了计算需求。

文献综述

传统方法在车辆检测与跟踪中的应用

早期研究如Yang和Qu(2018)采用基于低秩和稀疏分解的背景减除模型检测运动车辆,并结合在线卡尔曼滤波器进行目标跟踪和计数,在复杂场景(如车辆重叠和视觉杂乱)中表现出高鲁棒性。Moutakki等(2017)开发了基于码本背景模型的车辆计数系统,通过背景减除分割车辆区域,轮廓过滤优化,并结合HOG描述子和SVM分类器,在高速公路数据上实现了全面的检测精度。Nosheen等(2024)提出了一种轻量级方法,结合斑点检测和核化相关滤波器(KCF)跟踪器,在KITTI数据集上达到约82%的检测率和86%的跟踪精度。这些研究突出了卡尔曼和KCF跟踪等经典方法在实时监控中的持续相关性。

机器学习在交通场景分析中的作用

Arinaldi等(2018)比较了经典高斯混合模型(MoG)结合HOG特征和SVM分类器与深度学习方法Faster R-CNN的性能。虽然MoG+SVM能有效分割和分类车辆,但在遮挡或静止车辆场景中表现不佳,而Faster R-CNN则显示出更强鲁棒性。ElSahly和Abdelfatah(2023)开发了基于随机森林(RF)的交通事件检测系统,利用VISSIM生成的模拟数据(包含拥堵、事件严重性和传感器数据),准确区分了事件和正常交通状态。其他ML方法利用手工特征(如HOG或Haar级联)结合SVM或提升方法估计交通流、分类车辆类型或检测静态异常,尽管计算高效,但在视角或光照变化下鲁棒性有限。
Alharbi(2022)应用随机森林进行无人机影像中的车辆检测,在挑战性条件下实现了87.4%的召回率,但在密集交通和高维特征情况下性能下降。Chandramohan等(2020)强调了在车载自组织网络(VANET)中高效车辆聚类的重要性,以减少冗余通信、维护数据完整性并支持实时交通管理。Wang等(2022)针对复杂森林环境中无人机从固定点设备收集新鲜信息最大化的问题,提出了混沌初始化和协同进化算法(用于两点路径规划)以及模拟退火方法(用于多点路径规划),实验验证显示其方法能以更少迭代和更低计算成本生成更高信息新鲜度的巡逻路径。Bianchi等(2024)提出了能量最优参考生成器结合分层控制策略的四旋翼轨迹规划方法,显式最小化能量消耗同时保持系统稳定性,为长时程或资源有限任务提供了能量意识部署基础。

深度学习方法的发展

深度学习的出现显著推动了车辆检测、分类和跟踪的进步。单阶段检测器如YOLO(特别是YOLOv3及后续版本)因速度和准确性平衡而广泛采用,但YOLOv3在遮挡或小尺度物体上表现不佳。两阶段模型如Faster R-CNN,当与卡尔曼滤波器和匈牙利算法(如SORT框架)集成时,在动态场景中提供更好的多目标跟踪,但缺乏基于外观的判别,影响密集交通中的性能。
Gallo等(2023)采用YOLOv7进行无人机检测,对小物体实现高精度,但计算需求高,限制了边缘设备部署。改进如k-means聚类生成锚框和多尺度特征融合增强了早期YOLO版本;例如,Sang等(2018)在BIT-Vehicle数据集上使用优化YOLOv2模型。类似地,YOLOv5在 aerial 数据集上表现出优于YOLOv3/4的准确性,如Nepal和Eslamiat(2022)所述。近期趋势包括结合EfficientDet和YOLO变体的集成模型,以提高遮挡和尺度变化下的鲁棒性。Transformer-based检测器和YOLOv8等网络持续推动性能边界,而两阶段模型如Mask R-CNN在杂乱场景中提供细粒度分割以精确提取车辆形状。
Battal等(2023)在真实交通视频序列上使用YOLOv5m6检测和分类五类车辆,报告在不同条件下平均检测/分类精度为88%。Xu H.等(2020)和Xu M.等(2020)引入了改进的多任务级联CNN(IMC-CNN)结合混合图像增强技术进行 aerial 车辆检测,虽然提高了小物体召回,但检测精度稳定在85%。Biyik等(2023)在无人机正射影像上训练标准YOLOv3和YOLOv4-CSP模型,分别报告80%和87%的mAP,突出了在高噪声地理参考上下文中检测的难度。这些结果说明,虽然当前深度架构在准确性上可接近低90s,但在户外、 aerial 或实时视频场景中常低于91%,尤其激励了本系统在AU-AIR、UAVDT和VAID上实现≥0.92分数的 refined 方法。

现有工作的挑战

尽管 aerial 交通监控取得显著进展,几个关键挑战限制了当前方法在真实世界边缘平台上的部署。传统方法常依赖静态背景建模,对无人机影像不适用,因为动态视角和变化背景是常态。小尺度车辆检测由于分辨率限制和遮挡(尤其在杂乱环境中)仍存在问题。此外,许多最先进的深度学习模型计算密集,不适合资源受限、低功耗无人机系统上的实时推理,这严重影响了智慧城市中 aerial 监控的可扩展性和成本效益。现有方法还难以区分运动和静止车辆,尤其在密集交通和阴影区域,导致轨迹跟踪和事件识别错误。数据集中的类别不平衡(主导车辆类型掩盖少数类)进一步引入偏差,损害分类可靠性。这些限制突出了急需轻量级、能量高效且可边缘部署的解决方案, tailored 用于无人机平台,以确保复杂 aerial 场景中实时、准确和可扩展的交通智能。

材料与方法

系统方法论

本方法的新颖性在于将多种互补方法系统集成到单一 pipeline 中。集成方案包括:(i)使用FAMVN和上下文平滑的预处理,减少光照偏差和噪声,为分割提供清洁输入;(ii)使用SASSC的分割,强制执行光谱-空间一致性,改善物体边界保存;(iii)时序RNN-based检测,利用运动连续性减少误报;(iv)DeepSORT保持跨帧一致物体标识;(v)SURF和BRISK描述子融合,捕获尺度和光照鲁棒特征;(vi)Swin Transformer通过分层自注意力结合局部和全局线索进行最终分类。这些技术的组合使用通过补偿任何单一方法的限制来增强鲁棒性——例如,DeepSORT纠正RNN的漏检,而特征融合强化挑战性 aerial 条件下的分类。这种协同集成直接贡献于改进检测精度、跟踪稳定性和分类准确性,从而推进了无人机基于实时监控的可行性。

图像预处理 via 快速自适应均值-方差归一化(FAMVN)

为提高AU-AIR、VAID和UAVDT数据集的数据质量,我们实施了集成经典和先进增强技术的自适应预处理 pipeline。不同于传统直方图方法,我们应用了快速自适应均值-方差归一化(FAMVN),其在变化光照条件下保存结构特征。帧32,823(AU-AIR)、6,000(VAID)和80,000(UAVDT)被 resize 到640×640,像素值归一化到[0,1]以稳定模型。与CLAHE不同,FAMVN在重叠核内调整局部均值和方差,增强对比度同时保存边缘并最小化过饱和。FAMVN变换对于窗口wi,j中的像素xi,j定义为:
I′i,j = (Ii,j - μwi,j) / (σwi,j + ε) · σT + μT     (1)
这里,μwi,j和σwi,j表示滑动窗口wi,j内的局部均值和标准差,而μT和σT代表用作归一化目标的全局数据集统计。小常数ε确保除法时的数值稳定性。此归一化将局部强度变化与全局分布统计对齐,从而减少光照偏差并增强帧间结构一致性。为在抑制噪声的同时保存边缘信息,我们应用高斯集成双边滤波器进行多尺度上下文平滑,其保存了对 aerial 影像中鲁棒检测和跟踪关键的显著物体边界。

图像分割 via 自适应光谱-空间聚类(SASSC)

预处理后,使用自适应光谱-空间聚类(SASSC)进行分割,这是一种无监督方法,结合光谱强度模式和空间连续性。不同于传统模糊C均值(FCM),SASSC采用基于图的流形学习和自适应邻域共识来 refine 聚类成员资格。这种双域策略增强边界保存和噪声鲁棒性——对精确 aerial 车辆分割关键:
μij(t+1) = (φijβ · ωijγ) / (∑k=1C φkjβ · ωkjγ)     (2)
这里,φij量化像素xj和聚类中心vi之间的光谱相似性,而ωij通过编码xj邻域像素分配给聚类i的比例来测量空间一致性。指数β和γ平衡这两种影响,允许更新强调光谱保真度(β)或空间平滑度(γ)。分母确保跨所有聚类的概率归一化,因此成员资格μij(t+1)保持有效概率。此公式 thus 将局部邻域结构集成到聚类过程中,产生既光谱代表又空间连贯的分配。因此,该方法对 aerial 影像中的边缘噪声和背景杂乱更鲁棒。收敛通过基于熵的自适应停止准则保证,一旦连续聚类中心在定义阈值内稳定则停止迭代:
i=1C H(vi(t)) · ||vi(t) - vi(t-1)||2 < ε     (3)
这里,H(vi(t))表示迭代t时聚类i的模糊熵,测量其成员资格分布的不确定性。项||vi(t) - vi(t-1)||2量化连续迭代间聚类中心的平方变化,指示聚类移动多少。通过用熵加权此变化,具有更高不确定性的聚类对停止准则施加更强影响。跨所有C聚类的求和提供聚类过程稳定性的全局度量。一旦此熵加权变化低于预定义阈值ε则声明收敛,确保算法仅在高度动态或噪声区域中 both 稳定和不确定聚类已充分 settled 时停止,导致更可靠的分割结果。

车辆检测 via 循环神经网络(RNN)

循环神经网络(RNN),特别是其高级变体如长短期记忆(LSTM)和门控循环单元(GRU),对建模 aerial 视频分析中的时序序列非常有效。虽然常规物体检测器(如YOLO、Faster R-CNN)专注于每帧的空间检测,但它们常缺乏跨连续帧跟踪和检测快速移动或间歇可见车辆所需的时序意识。这在 aerial 监控中尤其挑战,其中动态环境因素如遮挡、阴影、尺度变化和 abrupt 视角变化可能降低检测准确性。
为解决此,我们提议在空间特征提取阶段后集成RNN作为时序特征聚合器。帧 wise 特征嵌入,使用深度卷积主干(如ResNet50或CSPDarknet)获得,被顺序馈入RNN。这允许模型捕获帧间依赖并学习指示一致车辆运动的时序模式。每个时间的隐藏状态ht作为记忆单元,编码不仅当前帧信息还有从过去帧积累的上下文。为进一步增强时序判别 power,我们 incorporate 时序注意力机制。不是平等对待所有过去隐藏状态,注意力模块为每个过去状态hk计算相关性分数αk,允许网络选择性关注对当前检测贡献最大的时间步。此动态加权策略显著提高模型检测经历遮挡、重现或方向变化的车辆的能力:
ht = φ(WxXt + Wh(∑k=1t-1 αk · hk) + b)     (4)
这里,ht是时间步t的隐藏状态,携带累积时序信息,Xt是帧t来自空间编码器的特征向量,αk是时序注意力权重,动态计算以优先相关过去隐藏状态,Wx、Wh是对应输入和循环路径的可训练权重矩阵,b是可学习偏置向量,φ(·)是非线性激活函数如tanh或ReLU,q是引导基于任务相关性注意力计算的可学习查询向量。
此公式允许模型通过基于新空间线索和先验上下文选择性更新隐藏状态来编码时序依赖,对杂乱或运动模糊环境中持久检测 essential。此外,软注意力机制与循环流融合以优先每帧内相关时空区域。此选择性增强改进小或部分遮挡车辆的检测,尤其在低分辨率 aerial 视图中。最终检测头操作于聚合隐藏表示,采用类特定边界框回归和置信度评分。基于RNN的架构在复杂城市和乡村 aerial 场景中实现鲁棒车辆定位和连续性感知检测。

车辆跟踪

车辆计数 via Transformer增强光流(TE-OF)
为确保每帧精确车辆枚举,采用了结合RNN-based检测和Transformer增强光流(TE-OF)的双流策略。不是基本帧差,TE-OF使用注意力引导流估计捕获连续帧间运动。运动掩码通过阈值化流向量幅度生成:
Mt(x,y) = { 1, if ||Ft→t+1(x,y)||2 > τ; 0, otherwise }     (5)
这里,Ft→t+1(x,y)表示连续帧t和t+1间像素(x,y)的光流向量。幅度||Ft→t+1(x,y)||2捕获位移强度,超过自适应阈值τ的像素被标记为运动活跃,形成二值运动掩码Mt(x,y)。此阈值化自适应过滤背景噪声和光照变化,仅保存连贯运动线索。为进一步 refine 这些掩码,形态学膨胀连接碎片区域,而连通组件标记将它们聚合为 distinct 运动物体候选。这些 refined 运动区域与RNN生成边界框交叉验证,确保仅运动确认检测被计数为动态车辆。最后,静止车辆计数通过从每帧总检测数减去运动确认物体数获得,产生鲁棒动态 vs. 静态车辆分类:
Vstatict = Vtotalt - Vmovingt     (6)
这里,Vtotalt是帧t中RNN检测的车辆数,Vmovingt是通过运动分析识别的车辆数。此差分策略确保可靠估计静止车辆,同时保持运动密集 aerial 交通场景中的精度。
车辆跟踪 via DeepSORT
使用DeepSORT跟踪器跨图像跟踪车辆。DeepSORT基于外观、运动和速度跟踪物体,通过结合深度学习特征与卡尔曼滤波器,不同于SORT。它还生成特殊ID以支持多目标跟踪。给定运动数据使用马哈拉诺比斯距离矩阵 between 卡尔曼状态和最新测量合并:
s(1)(i,j) = (sj - vi)T Ki-1 (sj - vi)     (7)
这里,sj表示对应第j个边界框检测的特征向量,而vi和Ki表示投影到测量空间的第i条轨迹分布的均值和协方差。二次型(sj - vi)T Ki-1 (sj - vi)计算检测和轨迹之间的马哈拉诺比斯距离,考虑 both 均值偏移和特征空间中的不确定性,使匹配对尺度和方差差异鲁棒。实践中,外观嵌入相似性通过结合此马哈拉诺比斯距离与特征向量间的余弦相似性评估,允许在遮挡和视角变化下可靠数据关联。
s(2)(i,j) = min{ 1 - ljT ls(i) | ls(i) ∈ Ri }     (8)
这里,lj表示第j个检测的外观描述子,而ls(i)表示与第i条轨迹相关的存储外观描述子,包含在集合Ri中。表达式1 - ljT ls(i)计算检测和轨迹描述子间的余弦距离,取Ri中所有存储描述子的最小值确保使用最接近历史外观进行匹配。此公式集成 both 当前和过去外观线索,允许跟踪器在部分遮挡、姿态变化或光照变化下保持一致关联。因此,方程8强化基于外观的重新识别的可靠性,并补充方程7的运动基于相似性,为跟踪模块中的数据关联提供鲁棒联合准则。
最终关联得分是运动和外
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号