一种适用于工业场景的高效且轻量级的旋转目标检测模型

《Digital Chinese Medicine》:An efficient and lightweight rotating target detection model for industrial scenarios

【字体: 时间:2025年10月03日 来源:Digital Chinese Medicine CS1.8

编辑推荐:

  针对工业机器异常声检测中局部细节和长期依赖建模不足的问题,本文提出多阶段注意力网络(MSANet),结合融合谱图注意力、局部注意力网络(CBAM)和全局注意力网络(GRU),显著提升检测性能,在DCASE 2020数据集上平均AUC达94.89%,pAUC达89.11%。

  在工业设备监测领域,异常声音检测(Anomalous Sound Detection, ASD)系统扮演着至关重要的角色。通过传感器采集机器运行时发出的声音信号,ASD系统能够识别这些声音波形中的异常,从而帮助维护人员及时发现潜在故障,避免设备损坏或生产事故。然而,尽管近年来研究者们在该领域取得了显著进展,现有的方法仍然存在一定的局限性,特别是在对声音特征中的局部细节和长期依赖信息建模方面表现不足,导致在某些类型的机器上检测性能较差。

针对这一问题,本文提出了一种基于多阶段注意力网络(Multi-Stage Attention Network, MSANet)的新型ASD模型。该模型旨在通过更精细地捕捉声音信号的局部特征和全局关联信息,提高异常检测的准确性和鲁棒性。MSANet的结构设计充分考虑了声音信号的多维特性,结合了多种先进的注意力机制,以实现对声音数据的高效建模和分析。

声音信号的处理通常涉及两个主要领域:时域和频域。在传统方法中,研究人员多采用短时傅里叶变换(Short-Time Fourier Transform, STFT)来构建声音的时间-频率(Time-Frequency, T-F)表示,然后将其作为神经网络的输入。例如,一些基于生成模型的方法,如自编码器(AutoEncoder, AE)和生成对抗网络(Generative Adversarial Network, GAN),仅利用正常声音样本进行训练,通过最小化输入与输出频谱图之间的误差来学习正常状态下的声音特征,并将重构误差作为异常评分的依据。然而,这种方法在某些情况下表现不佳,尤其是在异常声音与正常声音之间的频谱差异不明显时,生成模型可能难以准确识别异常状态。

此外,一些方法通过引入机器类型和声音样本标签等额外信息,结合深度分类器来计算异常评分。例如,在某些研究中,使用了MobileNets分类网络对声音的T-F域频谱图进行处理,并结合ArcFace算法分析分类器生成的嵌入向量,从而得到异常评分。虽然这些方法在一定程度上提升了检测效果,但它们主要依赖于T-F域的特征,忽略了声音信号的时域信息,这在一定程度上限制了模型的性能。

近年来,随着深度学习技术的不断进步,研究者们开始探索如何更好地利用声音信号的时域信息。一些研究直接在时域上对声音信号进行建模,构建时间特征表示。例如,STgram-MFN方法使用一维卷积神经网络(Convolutional Neural Network, CNN)对声音信号进行时域建模,并将时域频谱图和梅尔频谱图作为网络输入。这种方法在一定程度上提高了异常检测的准确性。然而,即使如此,基于CNN或循环神经网络(Recurrent Neural Networks, RNNs)的特征提取方法仍然存在一定的局限性,尤其是在捕捉声音信号的上下文信息和局部细节方面。

因此,本文提出了一种基于注意力机制的ASD模型,即MSANet。该模型通过多阶段的注意力网络,对声音信号进行分层次建模,从而更全面地捕捉声音的局部特征和全局关联信息。MSANet的结构主要包括三个主要部分:编码器、注意力网络和分类器。编码器负责对声音信号进行时域和T-F域的双重表示;注意力网络则由融合频谱注意力网络(Fusion Spectrogram Attention Network, FSAN)、局部注意力网络(Local Attention Network)和全局注意力网络(Global Attention Network)组成,分别用于捕捉声音信号的局部细节和全局交互信息;分类器则用于最终的异常检测任务。

在MSANet中,FSAN模块被设计用于增强融合频谱图中的帧级和语句级信息。通过方向性池化(directional pooling)和注意力加权(attention weighting),FSAN能够更有效地提取不同频谱位置和时间间隔之间的相关特征,从而提升频谱图中关键信息的表示能力。局部注意力网络则采用卷积块注意力模块(Convolutional Block Attention Module, CBAM),通过关注特征向量的通道和空间信息,进一步增强模型对局部细节的建模能力。CBAM模块能够有效地筛选出对异常检测最有帮助的局部特征,从而提高模型的检测性能。

全局注意力网络则借鉴了门控循环单元(Gated Recurrent Unit, GRU)的机制,将其嵌入到原始的Transformer结构中,以增强模型对声音信号全局上下文信息的捕捉能力。Transformer结构本身具有强大的全局建模能力,能够处理长序列数据并捕捉不同尺度的相关信息。然而,在某些情况下,异常声音段可能仅在短时间内出现,例如频谱图中的局部能量分布异常。这种情况下,传统的自注意力机制可能无法有效捕捉这些短时的局部特征。因此,本文通过引入GRU模块,使Transformer能够更好地处理这类问题,从而提升模型的全局建模能力。

MSANet的结构设计使得模型能够在不同层次上对声音信号进行建模,从而更全面地捕捉声音的局部细节和全局交互信息。这种多阶段的注意力机制不仅提高了模型对异常声音的识别能力,还增强了其对不同机器类型和异常类型的适应性。在实验部分,本文在DCASE 2020 Challenge Task 2数据集上进行了广泛的测试。该数据集包含六种类型的机器:风扇、泵、滑块、阀门、玩具车和玩具传送带。在训练集中,仅提供正常声音样本,而在测试集中则包含了正常和异常样本。实验结果表明,MSANet在平均AUC(Area Under the Curve)和平均pAUC(Precision-Recall Area Under the Curve)方面均优于之前的方法,分别达到了94.89%和89.11%。这一结果表明,MSANet在异常声音检测任务中具有显著的优势。

为了进一步验证MSANet的有效性,本文还进行了与其他主流方法的对比实验。其中包括基于自编码器的基线方法(Baseline method),该方法使用了音频样本的对数梅尔频谱图作为输入,并通过自编码器网络计算异常评分。此外,还比较了基于全连接U-Net的log-Mel方法,该方法通过非平稳音频信号的重建来计算异常评分。此外,IDNN方法通过移除频谱图预测的中央帧插值来提升检测效果。这些方法在一定程度上提高了异常检测的准确性,但在某些情况下仍然存在局限性,尤其是在对声音信号的局部细节和全局交互信息建模方面。

通过对比实验,本文发现MSANet在多个方面优于这些传统方法。首先,MSANet通过多阶段的注意力机制,能够更全面地捕捉声音信号的局部细节和全局关联信息,从而提高了检测的准确性。其次,MSANet在融合频谱图的处理上采用了方向性池化和注意力加权技术,使得模型能够更有效地提取不同频谱位置和时间间隔之间的相关特征,增强了对异常声音的识别能力。此外,局部注意力网络中CBAM模块的应用,使得模型能够更精确地关注声音信号的通道和空间信息,从而提升了对局部细节的建模效果。最后,全局注意力网络中GRU的引入,使得模型能够更好地处理长序列音频数据,增强了对全局上下文信息的捕捉能力。

在实际应用中,MSANet的多阶段注意力机制不仅适用于特定的机器类型,还能够适应不同的异常类型。这种灵活性使得MSANet在多种工业环境中都具有广泛的应用前景。例如,在风扇、泵、滑块等设备的异常检测中,MSANet能够有效地识别局部能量分布异常或长期依赖信息的变化,从而提高检测的准确性。此外,在玩具车和玩具传送带等复杂设备的监测中,MSANet的多阶段注意力机制能够更全面地捕捉声音信号的多维特征,提高对异常事件的识别能力。

总的来说,本文提出的MSANet模型通过多阶段的注意力机制,显著提升了异常声音检测的性能。该模型不仅能够更全面地捕捉声音信号的局部细节和全局关联信息,还能够适应不同的机器类型和异常类型,具有较高的灵活性和鲁棒性。实验结果表明,MSANet在多个指标上均优于之前的方法,显示出其在工业设备监测领域的巨大潜力。未来,随着深度学习技术的不断进步,MSANet的结构和机制还可以进一步优化,以适应更复杂的声音信号和更广泛的工业应用场景。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号