基于卷积神经网络(CNN)的模型在多种声学环境中对猪叫声分类的鲁棒性评估
《Computers and Electronics in Agriculture》:Robustness of CNN-Based model assessment for pig vocalization classification across diverse acoustic environments
【字体:
大
中
小
】
时间:2025年11月13日
来源:Computers and Electronics in Agriculture 8.9
编辑推荐:
猪叫声分类研究采用多农场数据集和CNN模型,通过数据增强与混合MMCT特征提取提升跨环境泛化能力。实验显示模型在单一农场数据集上准确率达97.68%-99.18%,跨农场平均准确率91.32%,验证了轻量级CNN在真实生产环境中的可行性。
本研究聚焦于猪叫声分类问题,旨在开发一种适用于多种农场环境的稳健模型。近年来,随着精准畜牧业(Precision Livestock Farming, PLF)的快速发展,越来越多的研究者开始关注利用先进的传感技术、物联网(IoT)系统和人工智能技术对动物进行持续监测与管理。尽管这些技术显著提升了数据驱动决策的能力,但在实际应用中,仍然面临一些关键挑战,例如准确评估动物福利、早期检测健康问题以及应对数据异构性等。猪叫声作为动物健康和情绪状态的低成本监测手段,受到广泛研究。然而,由于猪场环境复杂,不同农场之间的声音数据差异较大,使得模型在实验室条件和实际农场环境中的表现存在显著差距。
在本研究中,我们采用卷积神经网络(CNN)架构,以评估其在不同农场环境下的分类效果。为了实现这一目标,研究团队从三个实际猪场收集了三组数据集,分别命名为GJDS、ISDS和JEDS。每组数据集包含4000个音频文件,每个类别(非叫声、咳嗽、尖叫和正常)各有1000个样本,每个音频文件时长为3秒。这些数据集涵盖了猪从断奶阶段(约5公斤)到育肥阶段(约110公斤)的整个生长过程。通过使用混合MMCT(Mixed-Mel Cepstral Coefficients and Time)方法提取音频特征,并结合CNN分类器,我们构建了一个端到端的轻量化模型,以实现高效的多类别分类。
在模型训练过程中,采用了三种卷积层块、最大池化层和两个全连接层的结构。为了确保模型的泛化能力,我们进行了10折交叉验证。在每个数据集上,模型分别达到了97.68%、99.18%和97.45%的准确率。为了进一步评估模型在未见过的数据集上的表现,我们采用了一种组合数据集的策略,即将两个数据集作为训练集,另一个作为测试集。在这种设置下,模型的平均性能分别为91.96%、91.36%、91.66%和91.32%。这些结果表明,该模型在不同农场环境下的分类任务中表现稳定,具有较高的可靠性。
为了提升模型的泛化能力,我们还进行了数据增强处理。数据增强是提高模型鲁棒性的重要手段,特别是在数据有限的情况下。我们应用了四种增强技术:音调变换、时间偏移、时间拉伸和背景噪声添加。这些技术不仅增加了训练样本的数量,还帮助模型更好地适应多样化的农场环境。此外,为了减少数据的稀疏性和高维度,我们对音频特征进行了标准化处理,将其缩放到[0,1]的范围内。这种标准化方法有助于提高模型的稳定性,并增强其在不同背景噪声下的适应能力。
在数据采集过程中,我们采用了一个系统化的流程,确保了高质量的音频数据。每个猪场安装了高质量的麦克风(PLM-Q5型号),其频率范围为20Hz至20kHz,并具备降噪功能。麦克风被放置在每个猪栏的中心位置,距离地面120厘米,采样率为44.1kHz,精度为16位。这些数据被保存为WAV格式,并传输至网络附加存储(NAS)系统(Synology DS618j)。所有数据均来自正常生产环境下的猪,确保了实验的生态有效性。然而,研究中并未系统记录猪的生理或健康状态,这可能影响对模型性能的进一步解释。
在数据预处理阶段,我们采用了3秒的固定窗口长度,对连续录音进行分割。这种选择是为了确保所有声音类别具有统一的输入尺寸,并考虑到实际应用中连续数据流的实时处理需求。此外,为了识别音频中的非静音部分,我们使用了基于分贝全刻度(dBFS)的测量方法。我们还分析了音频的基本频率(F0),并利用pYIN算法提取了每个音频文件的频率特征。这些分析帮助我们理解不同声音类别之间的差异,以及不同农场之间的背景噪声水平和声音强度变化。
为了确保模型在实际应用中的有效性,我们设计了一个跨农场的评估方案。模型在两个农场的数据集上进行训练,并在第三个农场的数据集上进行测试。这一策略能够帮助我们评估模型在未见过的环境下的泛化能力。尽管模型在跨农场测试中的准确率有所下降,但其仍然保持了较高的分类性能,这表明该模型具备一定的适应性。然而,某些类别(如正常和非叫声)的分类准确率相对较低,这可能与这些类别在声音特征上的重叠有关。例如,正常声音可能包含多种社交行为,而这些行为的声音特征与非叫声之间可能存在较大的相似性。
在模型性能评估方面,我们使用了多种指标,包括精确率(Precision)、召回率(Recall)、F1分数和准确率(Accuracy)。这些指标帮助我们全面衡量模型的分类能力。在所有数据集的内部评估中,模型的精确率、召回率和F1分数均超过了97%。特别是在ISDS数据集上,模型达到了接近完美的分类效果,显示出较强的鲁棒性。而在跨农场测试中,模型的平均准确率下降至91.32%,但仍然高于其他基准模型。这表明,尽管环境差异会影响模型性能,但该模型仍能在不同农场条件下保持较高的分类效率。
与现有的几种CNN架构(如VGG19、ResNet50和MobileNetV2)相比,我们提出的模型在分类性能和计算效率方面表现更优。例如,在跨农场测试中,该模型的精确率、召回率、F1分数和准确率分别为91.96%、91.36%、91.66%和91.32%,远高于其他模型。同时,该模型的计算复杂度也较低,仅需1.21B FLOPs和0.02秒的推理时间,这使其更适合部署在资源受限的边缘设备上。相比之下,MobileNetV2虽然参数较少,但其推理时间较长,且在跨农场测试中的性能明显下降。而VGG19和ResNet50虽然结构更深,但其分类效果相对一般。
研究结果表明,该模型在猪叫声分类任务中表现出色,特别是在识别健康相关的叫声(如咳嗽和尖叫)方面。这些叫声通常与呼吸道疾病、疼痛或不适等健康问题相关,因此其准确分类对早期健康干预具有重要意义。然而,模型在某些类别(如非叫声和正常叫声)上的表现仍存在一定的局限性。这可能与这些类别在声音特征上的重叠有关,也可能受到农场环境差异的影响。此外,研究中未采用任何噪声消除方法,这虽然保留了自然声音的多样性,但也可能导致部分样本的分类难度增加。
本研究的一个主要贡献在于构建了一个包含多类别猪叫声的公开数据集,这为未来的自动化声音监测研究提供了宝贵资源。此外,通过在不同农场环境下的测试,我们揭示了环境因素如何影响模型的分类性能。这一发现对于开发更加稳健和通用的猪叫声分类模型具有重要指导意义。虽然当前模型仍存在一定的局限性,如对未知环境的适应能力不足,但其在实际应用中的表现表明,该模型具备较高的实用价值。
未来的研究可以进一步优化模型的泛化能力,例如引入领域适应技术(如对抗训练或迁移学习),以帮助模型学习与环境无关的特征。此外,增加更多样化的训练数据,涵盖不同农场、不同猪品种以及不同生长阶段的声音数据,可能有助于提高模型的适应性。同时,可以探索更先进的数据增强技术,以生成更具代表性的训练样本。此外,结合音频和视频数据,通过行为观察来验证叫声分类的准确性,也是未来研究的一个重要方向。通过这些方法,我们有望进一步提升猪叫声分类模型的鲁棒性和实用性,从而更好地服务于精准畜牧业的发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号