
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于CNN-ViT多特征融合的驾驶员疲劳检测系统:一种高精度混合模型研究
【字体: 大 中 小 】 时间:2025年06月25日 来源:Array 2.7
编辑推荐:
针对驾驶员疲劳状态检测难题,研究人员创新性地提出CNN-ViT混合架构,通过融合DenseNet121/VGG/ResNet等CNN模型的局部特征提取能力与Vision Transformer的全局注意力机制,在两类数据集上实现最高99.76%的分类准确率,为智能驾驶安全监测提供了兼具高精度与实时性的解决方案。
随着智能交通系统的发展,驾驶员疲劳状态检测成为保障道路安全的关键技术挑战。传统基于单一生物特征(如心率)或简单图像处理的方法存在精度低、适应性差等问题,而现有深度学习模型在复杂光照、遮挡等真实驾驶场景中表现不稳定。尤其当需要同时检测眼部闭合(Closed/Open)和哈欠状态(yawn/no_yawn)等多模态特征时,单一模型往往难以兼顾局部细节与全局关联性。
为解决这一难题,国内研究人员开展了一项突破性研究,通过创新性地融合卷积神经网络(CNN)与视觉Transformer(ViT)的优势,构建了系列高性能混合模型。研究团队系统评估了DenseNet121、ResNet50、VGG16/VGG19等CNN架构与ViT的组合效果,在包含2900张图像的Dataset-1和9221张图像的Dataset-2上进行了全面验证。结果表明,最优模型ResNet50_ViT在Dataset-1上达到99.76%的准确率,较单一模型提升显著。该成果发表于《Array》,为实时驾驶员状态监测提供了新的技术范式。
研究采用三大关键技术:1)双流特征提取框架,通过预训练CNN分支处理224×224输入图像获取局部特征,同时ViT分支将图像分割为16×16 patches进行全局注意力建模;2)特征融合机制,将CNN的GAP(Global Average Pooling)输出与ViT的cls token拼接形成联合特征表示;3)动态超参数优化,采用网格搜索确定最佳学习率(1e-4)、batch size(32)及Transformer层数(8)。实验使用NVIDIA GTX 1080 Ti硬件平台,通过5折交叉验证确保结果可靠性。
【模型架构分析】
研究首次提出并行式CNN-ViT混合框架。以ResNet50_ViT为例,CNN分支输出7×7×2048特征图经GAP压缩为2048维向量,ViT分支通过8层Transformer编码器生成4维全局特征,二者拼接后经512单元的全连接层分类。这种设计使模型既能捕捉眼部纹理等细粒度特征,又能建模面部区域的空间关联。
【数据集表现】
在Dataset-1上,所有混合模型均超越基线:VGG19_ViT(99.07%)较单独VGG19(98.38%)提升0.69个百分点;DenseNet121_ViT(99.53%)更将其基础模型准确率从89.14%大幅提升10.39%。跨数据集测试中,VGG16_ViT在Dataset-2达到98.1%准确率,证明架构泛化能力。
【关键指标对比】
混淆矩阵显示ResNet50_ViT对"Closed"类实现100%召回率,F1-score达1.0;PR曲线AUC值均>0.99,显示极强正负样本区分能力。计算效率方面,ResNet50_ViT仅需8.41B FLOPs,在300ms内完成单图推理,满足实时性需求。
【交叉验证】
5折交叉验证中,ResNet50_ViT平均准确率99.80%±0.0022,显著优于传统CNN模型(如VGG16:97.92%±0.032)。这种稳定性使其适合车载嵌入式部署。
该研究通过创新性地融合CNN与ViT的优势,解决了单一模型在驾驶员疲劳检测中特征提取不全面的问题。实验证明,混合模型不仅能同时精确识别眼部状态和哈欠动作,还展现出强大的跨数据集泛化能力。特别是ResNet50_ViT架构,在保持<300ms推理速度的同时达到99.76%的准确率,为实际应用提供了理想的技术方案。研究提出的双流特征融合范式,为后续多模态驾驶行为分析提供了重要参考,其轻量化设计思路更可直接推广至其他实时视觉监测场景。未来工作可进一步探索时序建模(如结合LSTM)和三维注意力机制,以提升视频流分析的连续性。
生物通微信公众号
知名企业招聘