面向精准畜牧的多阶段集成学习框架:嘈杂农场环境下的猪只声音分类与健康情感监测

【字体: 时间:2025年10月07日 来源:Scientific Reports 3.9

编辑推荐:

  为解决真实农场环境中猪只声音分类受背景噪声干扰、现有研究局限于孤立模式识别的问题,研究人员开展了一项名为PVMC(Pig Vocalization Multi-stage Classification)的多阶段集成学习研究。该研究整合了SEGAN+降噪、自适应音频分割及AST与Wav2Vec2集成分类方法,最终在噪声环境下实现了高达92.15%的情感状态检测精度,为实时动物健康监测和福利导向的智能畜牧系统提供了可靠解决方案。

  
在规模化畜牧养殖中,猪的健康状况和情绪状态直接影响生产效益和动物福利。近年来,通过声音分析监测动物状态已成为研究热点,尤其是猪的咳嗽、尖叫等声音可作为疾病和应激的早期指标。然而,现实农场环境充满复杂噪声——机械运转、饮水声、脚步声及其他动物活动声相互重叠,严重干扰声音信号的提取与识别。以往的研究多集中于单一声音类型(如咳嗽)的识别,且通常假设声音长度固定,忽略了猪只发声的自然时长变化和情感相关声音(如惊恐、焦虑)的判别,导致实际应用效果受限。
针对这些挑战,来自韩国全北大学智能机器人核心研究所的研究团队在《Scientific Reports》上发表了一项研究,提出了一种名为PVMC(Pig Vocalization Multi-stage Classification)的多阶段集成学习框架,能够有效去噪、分段并分类多种猪只发声,同时识别其健康状态与情感类别。该系统不仅显著提升了信噪比和分类准确性,还为实时、连续的声音监测提供了切实可行的技术路径。
本研究主要依托五个数据集(A-E),部分数据来自韩国顺天市三个养猪场和韩国农林畜产食品部数据市场,另一部分使用Liao等人开源的情绪声音数据。关键技术方法包括:一、使用SEGAN+(Speech Enhancement Generative Adversary Network Plus)进行噪声过滤,该模型通过生成对抗网络(GAN)结构动态学习噪声模式,提升声音清晰度;二、提出PVAS(Pig Vocalization Activity Segmentation)模型,融合梅尔频谱、线性频谱和MFCC(Mel-Frequency Cepstral Coefficients)三种声学特征,自适应检测有效猪声片段;三、采用SqueezeNet进行应激警报分类(SAC),将声音划分为咳嗽、尖叫和情境发声;四、通过集成AST(Audio Spectrogram Transformer)与Wav2Vec2模型,对情境发声进一步细分至平静、进食、受惊和焦虑四类情绪状态。

噪声过滤效果显著提升

SEGAN+在噪声抑制与信号重建方面表现突出,比较基线SEGAN和带噪原始数据,SEGAN+在CBAK(Composite Background Interference)、CSIG(Composite Signal Distortion)、PESQ(Perceptual Evaluation of Speech Quality)和SNR(Signal-to-Noise Ratio)四项指标上均取得显著提升,信噪比提高超过20 dB,为后续处理阶段奠定高质量信号基础。

多特征输入优化声音分段

在声音活动检测阶段,多输入模型(同时使用梅尔频谱、频谱图和MFCC)相比单一梅尔频谱输入模型表现出更优的识别性能。多输入模型在真实农场环境中能更准确地区分猪只发声与背景噪声,减少误判,尤其在对连续发声片段的检测中表现更为稳定。

轻量化模型实现高效应激分类

在应激警报分类(SAC)阶段,比较MobileNet-V1、ShuffleNet-V1、SqueezeNet和EfficientNet-B0等轻量模型后,SqueezeNet因参数少、计算效率高且分类精确度最优而被选为最终模型。该模型能够以较高召回率和精度区分咳嗽、尖叫与情境发声,其中咳嗽和尖叫类别被直接传入PHEMS(Pig Health and Emotion Monitoring System)数据库用于实时警报。

集成学习提升情感分类鲁棒性

对于情境声音的细分类(SSC),研究团队测试了多种CNN与音频专用模型(包括AST、PANNs、HuBERT、Wav2Vec2),发现单一模型在处理样本量较少、声学特征易混淆的类别(如“进食”和“焦虑”)时表现不佳。而通过软投票集成AST和Wav2Vec2,该模型有效融合时频特征与波形特征,在F1分数、召回率和精确度上均突破92%,显著减少类间误判。
该研究通过多阶段处理与集成策略有效解决了真实农场环境下的声音分类难题,不仅实现了噪声环境下的高精度声音识别,还扩展了可识别的声音类别,涵盖健康相关声音与情感状态。PVMC框架表现出较强的鲁棒性和实用性,为开发实时动物声音监测系统提供重要技术支持。然而,作者也指出当前系统模块间独立运行,未实现端到端优化,且数据规模与类别平衡度仍有不足——尤其是某些情感类别样本量偏少、声学特征重叠度高的问题仍需通过更大规模、更具代表性的数据集加以改进。
未来研究方向包括构建端到端的训练管道、扩充多场景多品种的声音数据库,以及探索跨农场和跨环境的自适应学习技术,以进一步提升系统泛化能力和部署效果。总体而言,这项研究不仅推动了畜禽健康监测的技术发展,也为实现智能化、福利化的畜牧管理系统的建立奠定了坚实基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号