基于深度学习的铁路紧固件缺陷分类方法研究:Vision Transformer与CNN模型的性能比较与优化

【字体: 时间:2025年06月27日 来源:Green Energy and Intelligent Transportation CS6.4

编辑推荐:

  本研究针对铁路运输安全中紧固件缺陷检测的难题,采用非破坏性评估(NDE)技术,对比分析了Vision Transformer(ViT)、Data-efficient Image Transformer(DeiT)与VGG、ResNet50等CNN模型的性能。通过Optuna优化超参数,发现Transformer模型在准确率(98.09%)和召回率(98.86%)上显著优于传统CNN,为铁路智能维护提供了高效解决方案,具有重要工程应用价值。

  

铁路运输作为现代交通体系的重要组成部分,其安全性直接关系到国民经济和人民生命财产安全。然而,轨道缺陷导致的交通事故频发,仅2009年美国就有约三分之一的铁路事故由轨道问题引起。传统人工检测方式效率低下,而现有基于卷积神经网络(CNN)的自动检测方法在全局特征提取方面存在局限。如何实现高效、精准的铁路紧固件缺陷检测,成为保障运输安全的关键技术难题。

为突破这一技术瓶颈,研究人员开展了一项创新性研究,系统比较了Vision Transformer(ViT)、Data-efficient Image Transformer(DeiT)与传统CNN模型在铁路紧固件缺陷检测中的性能差异。研究采用来自孟加拉国铁路的公开数据集,包含1400张平衡的紧固件图像(700张缺陷样本,700张正常样本),通过分层抽样划分为训练集(70%)、验证集(15%)和测试集(15%)。

关键技术方法包括:(1)采用预训练的ViT-base-patch16-224、DeiT-base-patch16-224、VGG16、VGG19和ResNet50模型进行迁移学习;(2)使用Optuna框架优化学习率、动量和dropout率等超参数;(3)实施10折分层交叉验证确保结果可靠性;(4)通过ROC曲线和混淆矩阵等指标全面评估模型性能。

研究结果显示:

  1. ROC曲线分析表明,Transformer模型展现出卓越的分类性能,ViT和DeiT的训练ROC AUC分别达到0.99,验证集表现也优于CNN模型。
  2. 训练动态显示,经过7个epoch后,DeiT在验证集上获得95.04%的准确率和95.4%的召回率,均优于ViT的94.14%和94.36%。
  3. 超参数优化证实,ViT在学习率0.00209、动量0.7720、dropout率0.3515时达到最佳召回率(95.93%)。
  4. 测试集评估中,ViT以98.09%的准确率和98.09%的召回率领先,仅产生4例误分类,显著优于VGG16(94.76%)和ResNet50(84.76%)。
  5. 计算效率分析发现,虽然ViT/DeiT的FLOPs(17.6G)高于ResNet50(4.1G),但其推理时间(9ms)仍满足实时检测需求。

这项研究通过系统比较首次证实,基于自注意力机制的Vision Transformer在铁路紧固件缺陷检测中具有显著优势。其全局特征提取能力克服了CNN的局部感受野限制,即使在小样本条件下也能实现98%以上的分类准确率。研究提出的高召回率(98.86%)检测方案可直接应用于铁路维护的两阶段工作流:先通过Transformer模型筛选可疑紧固件,再由人工确认具体缺陷类型,预计可减少25%的非计划维护延误。

特别值得注意的是,ViT和DeiT展现出的优异性能主要源于其独特的自注意力机制,该机制能同时关注图像各区域的相关性,有效捕捉分布式缺陷特征。相比CNN的局部卷积操作,这种全局建模能力更适合处理铁路紧固件中形态多变的缺陷模式。

尽管当前研究聚焦于二分类问题,但建立的方法学框架为后续多类别缺陷诊断奠定了基础。研究人员也坦承数据集的地域局限性,计划通过物理增强和数据融合来提升模型泛化能力。这些发现不仅为铁路安全监测提供了新工具,也为其他工业视觉检测任务提供了重要参考,标志着Transformer在工程应用领域的重要突破。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号