DeepSoundVisionNet：一种利用音频信号的视觉表示进行城市声音分类的新方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：DeepSoundVisionNet: A new approach to urban sound classification using visual representations of audio signals

【字体：大中小】 时间：2026年02月18日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　基于UrbanSound8K数据集，本研究提出通过Chromagram、STFT、CQT和Mel谱图融合构建增强视觉数据集，并设计DSVNet模型在10折交叉验证下达到95.02%的准确率，显著优于传统CNN架构。

伊尔凯·奇纳尔（Ilkay Cinar）

土耳其科尼亚塞尔丘克大学（Selcuk University）计算机工程系

摘要

本研究提出了一种利用音频信号的视觉表示进行城市声音分类的新方法。通过使用UrbanSound8K数据集，音频信号通过色谱图（Chromagram）、短时傅里叶变换（STFT）、恒Q变换（CQT）和梅尔频谱图（Mel spectrogram）方法转换为视觉格式。这些方法通过堆叠三种最有效的频谱图来创建增强的视觉数据集。从UrbanSound8K中衍生出五个新的数据集，以支持多样化的评估。音频数据的视觉形式允许进行详细的特征提取，并为深度学习模型提供有效的输入。该研究比较了多种架构的分类性能，包括视觉几何组19层网络（VGG19）、视觉几何组16层网络（VGG16）、50层残差网络（ResNet50）、移动神经网络（MobileNet）、Inception架构版本3（InceptionV3）、201层密集连接卷积网络（DenseNet201）、大型神经架构搜索网络（NASNetLarge）、Inception与残差网络组合版本2（InceptionResNetV2）以及极端Inception（Xception）。提出了一种名为DeepSoundVisionNet（DSVNet）的新模型，表现出优越的性能。使用10折交叉验证，DSVNet在堆叠频谱图上的准确率为95.02%，在梅尔频谱图上的准确率为93.56%（批量大小为16）。STFT的准确率为91.15%，CQT为82.29%，Chromagram为75.93%。DSVNet在处理复杂数据方面显示出强大的能力，这得益于可视化的音频处理。该研究强调了深度学习在智慧城市应用、环境声音监测和实时识别中的潜力，为提高未来声音分类系统的精度和效率奠定了基础。

引言

技术的快速发展和智能系统的广泛采用提高了在各种领域（如城市声音监测、环境噪声评估和实时声音事件检测）中高效分析声音数据的需求。传统的音频分析技术主要基于手工制作的特征，如梅尔频率倒谱系数（MFCCs）、色度特征（Chroma features）和零交叉率（ZCR），已被广泛用于声音分类。尽管这些方法取得了合理的成果，但它们对人工特征工程的依赖限制了其在处理复杂和多样化音频数据集时的可扩展性和有效性。为了克服这些挑战，研究人员越来越多地转向基于深度学习的方法，这些方法通过自动化特征提取和利用先进神经网络架构的分层学习能力彻底改变了这一领域。在这一领域的一个显著进展是将音频信号转换为视觉表示，例如频谱图，这些频谱图描绘了声音数据的频率和时间特征。频谱图，包括短时傅里叶变换（STFT）频谱图、恒Q变换（CQT）频谱图和梅尔频谱图，将音频波形转换为结构化的、类似图像的格式，使其适合由卷积神经网络（CNN）和其他深度学习模型进行处理。这种方法不仅简化了音频数据的表示，还允许研究人员将成熟的计算机视觉技术应用于声音分类任务。尽管频谱图在声音分类中的使用日益增加，但许多现有研究仍然使用传统的CNN模型，将这些表示视为标准的二维（2D）灰度图像。这种简化可能会限制模型捕捉音频信号中固有的细微谐波或时间模式的能力。

UrbanSound8K数据集已成为城市声音分类研究的基准。该数据集包含8732个标记的音频样本，分为十个不同的类别，包括汽车喇叭声、狗吠声和警报声等。研究人员探索了从该数据集中提取有意义特征的各种方法，结合了传统技术和现代机器学习及深度学习模型。尽管取得了显著进展，但在不同的转换和模型中实现一致的高准确性和鲁棒性仍然是一个重大挑战。

在这项研究中，我们旨在通过开发一个综合流程来解决这些挑战，该流程利用深度学习的强大功能进行声音分类。我们专注于UrbanSound8K数据集，并提出了一种处理和分析音频数据的新方法。该数据集使用色谱图、STFT频谱图、CQT频谱图和梅尔频谱图技术以及这些技术的堆叠方法转换为四个不同的视觉数据集。这些转换使我们能够探索不同的视觉表示如何影响深度学习模型在音频分类任务中的性能。采用了多种最先进的深度学习架构，包括VGG19、VGG16、ResNet50、MobileNet、InceptionV3、DenseNet201、NASNetLarge、InceptionResNetV2和Xception，对转换后的数据集进行分类。此外，还提出了一种名为DeepSoundVisionNet（DSVNet）的模型，旨在进一步优化分类性能。在研究的第二阶段，我们通过RGB通道堆叠三种表现最好的频谱图类型来提高模型性能。然后使用这种复合数据集来评估最佳基线模型和提出的DSVNet模型的分类能力，从而更深入地了解表示级融合和模型的鲁棒性。为了确保严格的评估，本研究采用了10折交叉验证，这是一种广泛接受的评估机器学习模型有效性和可靠性的方法。这项研究的主要目标是探索不依赖传统数值特征提取或选择方法的基于图像的声音分类的潜力。通过将音频数据转换为视觉格式并应用先进的深度学习模型，我们旨在揭示这些方法在城市声音分类中的有效性。该研究还旨在确定最适合提高分类准确性的模型，为该领域的未来研究和应用提供路径。虽然城市声音分类对智慧城市应用越来越重要，但许多现有研究在提供可扩展和更可靠的解决方案方面存在不足，这些解决方案能够在不同的声学环境中可靠地工作。本研究通过系统地研究不同基于频谱图的视觉转换与各种深度学习架构的相互作用来填补这一空白。除了这种比较分析外，研究人员还引入了一个定制的模型DSVNet，专门用于提高城市声音场景下的性能。通过关注表示与架构之间的相互作用，我们的方法为构建更准确和适应性更强的声音识别系统提供了实用的见解。

在这项研究中，关键贡献在于开发和评估DSVNet，这是一种专为基于频谱图的城市声音分类设计的新型残差CNN架构。与传统CNN模型不同，DSVNet集成了优化的跳跃连接、深度多阶段卷积块和有针对性的丢弃策略，以增强泛化和稳定性。这种架构之前尚未在此背景下应用过，它是专门为处理城市声学环境的多样性和重叠而设计的。此外，这项工作系统地研究了不同类型的频谱图如何与多种深度架构相互作用，从而实现了先前文献中缺失的比较基准。

材料与方法

本节提供了研究中使用的数据集信息、音频信号分析方法、音频信号转换为图像的方法、研究中使用的深度学习模型、专为本研究设计的DSVNet模型以及各种性能指标的详细信息。研究的流程图如图2所示。

研究从UrbanSound8K数据集开始，这是一个常用于环境声音分类的流行数据集

实验结果

通过准确性、精确度和召回率等指标来评估性能，这些指标有助于确定模型在分类声音类别方面的有效性。根据这些结果，选择表现最佳的模型，因为它具有更优越的分类能力。

除了分类性能外，还评估了计算效率，以评估所提出模型的实际部署能力。使用批量大小为1，在重复实验中测量了平均每个剪辑的推理时间

讨论与结论

不同类型频谱图之间的性能差异可以归因于它们编码音频信息的独特方式。MEL和STFT频谱图提供了时间和频率变化的密集表示，可能更适合检测短持续时间或瞬态事件。CQT以其对数尺度捕获低频谐波模式，但对高频波动可能不太敏感。Chromagram在捕获谐波结构和音高方面有效

伦理批准

本文使用的数据是一个公共数据集。

资助

本研究未获得任何资助。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系，这些利益或关系可能会影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关文献

相关工作