面向环境噪声分析的开源数据集DataSEC与DataSED:推动真实场景声音事件分类与检测研究
《Scientific Data》:Environmental Noise Dataset for Sound Event Classification and Detection
【字体:
大
中
小
】
时间:2025年10月30日
来源:Scientific Data 6.9
编辑推荐:
本刊推荐:为弥补现有环境声学数据在真实性和复杂性方面的不足,研究团队开发了DataSEC(声事件分类数据集)和DataSED(声事件检测数据集)。这两个数据集提供超过35小时的真实环境音频,涵盖22个声音类别和28个子类,支持单声道和多声道检测任务。该资源采用Class I声级计采集并经严格人工标注,为环境噪声评估、生态监测和智能家居等领域的机器学习应用提供了高质量训练数据。
在城市喧嚣的街道上,在宁静的乡村田野中,无处不在的环境声音构成了我们日常生活的听觉背景。然而,让机器真正理解这些声音并非易事——汽车鸣笛、鸟鸣犬吠、飞机轰鸣等声音事件在复杂环境中的自动识别,一直是声学信号处理领域的重大挑战。当前,尽管深度学习技术在图像识别等领域取得突破性进展,但环境声音分析的发展却相对滞后,其中一个关键瓶颈在于缺乏高质量、多样化的真实环境音频数据集。
现有声音数据集往往存在明显局限性:样本类别有限、使用合成音频、类别不平衡、录音时长受限、缺乏环境多样性,以及最关键的是——难以真实反映户外环境中多重声音交织、背景噪声多变的复杂特性。这些缺陷严重制约了声音事件分类(Sound Event Classification, SEC)和声音事件检测(Sound Event Detection, SED)技术在实际场景中的应用效果。
为解决这一迫切需求,来自意大利国家研究委员会物理化学研究所、比萨大学和坎帕尼亚大学的研究团队在《Scientific Data》上发表了开创性研究,推出了两个专门针对环境噪声分析的开源数据集:DataSEC和DataSED。这些数据集填补了真实环境声音数据资源的重要空白,为机器学习模型在环境声学领域的应用提供了坚实基础。
研究人员采用系统化的方法构建数据集,首先明确了22个环境声学类别和28个子类的分类体系,这一分类系统既考虑了人类听觉感知特性,也兼顾了环境噪声评估的法规要求。每个类别都经过精心设计,以覆盖户外环境中最常见且最具代表性的声音类型,如交通工具噪声(进一步细分为摩托车、轿车、卡车等)、动物声音(鸟类、犬猫等)、工业噪声等。
数据采集过程坚持“真实性优先”原则,主要使用Class I级声级计进行现场录制,仅少量数据来自Freesound.org和AudioSet等知名在线数据库。所有音频样本都经过严格筛选,确保为非合成真实录音,并统一转换为单声道、44.1kHz采样率的WAV格式,以保证数据一致性。
数据标注过程尤为严谨,研究团队使用专门开发的Python标注工具,由多名操作人员在静音环境下通过高质量耳机进行反复聆听和标注。对于DataSEC数据集,每个音频文件仅包含单一声音事件,便于分类任务;而DataSED则包含真实环境中的连续录音,支持多声音事件检测。
关键技术方法方面,研究团队主要采用:1)Class I声级计现场采集与在线数据库筛选相结合的数据获取方式;2)基于22类28子类的分层分类体系;3)专业Python工具辅助的人工精细标注流程;4)单声道44.1kHz标准化音频处理;5)针对单声道和多声道检测的双版本数据集构建策略。
DataSEC数据集:环境噪声声音事件分类的专业资源
DataSEC专为声音事件分类任务设计,包含4,292个独立音频样本,总时长18小时26分钟。每个样本代表单一声音事件,已去除静音段和无关背景音,确保分类任务的清晰度。数据集采用文件夹分层结构,按22个主类和28个子类组织,每个类别至少包含50个样本,每个子类不少于20个样本,保证了数据的平衡性和代表性。这种精心设计的结构极大便利了机器学习工作流程中的特征提取和模型训练。
DataSED针对声音事件检测任务,包含712段连续环境录音,总时长约17小时。该数据集的独特价值在于提供了真实环境中的多声音事件场景,包括声音重叠情况。数据集提供单声道和多声道两个版本:单声道版本仅标注主要声音事件,适用于初步检测应用;多声道版本标注所有同时发生的声音事件,更真实地反映复杂声学环境。标注信息以CSV格式提供,包含事件开始/结束时间戳、持续时间等7个详细字段。
研究团队通过四个步骤确保数据质量:首先,所有音频样本均经过作者团队的听觉验证;其次,数据来源可靠,主要来自Class I声级计采集或知名数据库的真实录音;第三,标注过程由多名操作人员重复校验,减少主观偏差;最后,每个类别都保持了统计学上显著的样本数量。此外,团队还通过可视化工具验证标注准确性,确保单声道版本中无类别重叠,多声道版本中同类事件无冲突。
这些数据集的显著优势在于其可扩展性和专业性。清晰的分类体系为模型训练提供了精确指导,降低了误分类风险。数据集特别适用于环境声学家的长期噪声测量分析,同时也可服务于生态学家进行野生动物监测、城市规划和智能家居技术开发。尽管当前数据集已涵盖广泛的环境场景,研究者指出未来可在录音距离变化、类别平衡和环境多样性方面进一步扩展,以增强模型的泛化能力和实际应用价值。
研究团队将DataSEC和DataSED数据集视为社区驱动的活资源,鼓励研究人员持续贡献和完善。这两个数据集通过Zenodo平台公开提供,分别包含分类明确的音频文件和详细的标注信息,采用Creative Commons许可协议,可直接用于机器学习模型的训练、验证和基准测试。
这项研究的意义不仅在于提供了高质量的数据资源,更在于为推动环境声学领域的机器学习应用建立了新标准。通过解决真实环境声音数据的稀缺性问题,DataSEC和DataSED为开发更精准、更可靠的声音事件分析工具奠定了坚实基础,有望在环境监测、城市规划和生态保护等领域产生深远影响。随着社区对这些数据的不断丰富和优化,我们有望看到更多创新性的声音分析应用涌现,最终实现机器对环境声音的深度理解和智能响应。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号