HOWLish:基于CNN的狼嚎自动检测模型及其在被动声学监测中的应用与性能评估

【字体: 时间:2025年09月24日 来源:Remote Sensing in Ecology and Conservation 4.3

编辑推荐:

  本研究开发了首个开源的狼嚎自动检测深度学习模型HOWLish,通过微调VGGish卷积神经网络(CNN),利用50,137小时野外录音数据(含841次标记狼嚎事件)实现77%召回率与1.74%假阳性率。该模型在实地测试中减少15倍人工处理时间,为狼群非侵入式大尺度监测(PAM)提供可靠工具,填补了食肉动物声学自动检测的技术空白。

  

引言

被动声学监测(PAM)已成为野生动物大尺度监测的重要工具,但现有自动化声音事件检测工具多集中于蝙蝠和鸟类等类群。灰狼(Canis lupus)作为管理需求复杂的物种,其自发嚎叫行为适用于长距离通讯,使其成为PAM的理想目标。然而目前缺乏开源、预训练的狼嚎自动检测工具。机器学习(ML)作为声音事件检测的最先进框架,其中卷积神经网络(CNN)因其能从输入数据中直接提取特征而成为生物声学中的主流架构。本研究通过迁移学习微调VGGish网络,开发了专门用于狼嚎检测的模型HOWLish。

材料与方法

数据收集

研究在2020年8月至2024年7月期间,于伊比利亚半岛26个推定狼群领地内采集50,137小时声景数据。使用Audiomoth记录器(版本1.1.0和1.2.0)配置8 kHz采样率、高增益和低电压截止功能。所有操作均获自然保护主管部门许可(许可证号725/2021/PERTURBA??O等)。

信号特征

狼嚎是响亮的和声信号(107.8 dBA at 2m),持续时间可达14秒,基频范围为150–1000 Hz,传播距离可达3公里。狼既可单独嚎叫(伴随静默间隔),也可进行合唱(所有成员参与形成渐强式嚎叫)。

数据标注

通过Audacity(v3.6.3)检查声景谱图进行人工标注,使用Mel刻度(200–2000 Hz)和Hanning窗口(2048样本)。共标注841次独特嚎叫事件, refined后获得8.27小时有效嚎叫数据,划分为3334个连续时间区间(称为howling)。

预训练CNN

选择在Audioset上预训练的VGGish网络,其输入为96×64对数梅尔谱图(0.96秒音频),适配本研究8 kHz数据时调整窗口大小为0.05秒(400样本),频率轴上限设为2000 Hz。

保留数据

预留3789小时声景数据(来自3个狼群领地)用于最终模型评估,包含80次自发狼嚎事件。

数据准备

将46,348小时声景分割为0.96秒片段,获得25,298个wolf类样本和173,754,022个not-wolf类样本。按70-10-20划分训练/验证/测试集,为避免伪重复,按地理区域分配数据(加利西亚为测试集,葡萄牙东北部为验证集)。为应对极端类别不平衡(7124:1),对训练和验证集进行随机下采样。

模型训练

保留VGGish原架构但增加带批量归一化的Sigmoid输出层。使用Adam优化器和二元交叉熵损失函数,初始以10?5学习率进行200轮迁移学习(基权重冻结),随后逐步解冻深层(渐进解冻)。最后通过optuna(v3.5.0)优化批大小(32-256)和学习率(10?6–10?4)。所有实验基于TensorFlow(v2.10.1)在RTX 3080 Ti工作站完成。

检测流程

开发包含前后处理规则的检测流程:音频分段→HOWLish预测→移动平均(窗口W)→阈值T排除→输出110秒候选片段。通过灵敏度分析选择W=3、T=0.9作为操作条件(召回率0.846,精确度0.0341)。

案例研究

将检测流程应用于保留数据集(7592个WAV文件),输出片段经人工质检评估性能,同时通过视觉计数成狼和听觉判断幼狼存在来评估生态数据完整性。

结果

最佳模型仅微调VGGish最后17M参数,测试集表现:召回率77%,假阳性率1.74%,AUC 0.939。但因类别极度不平衡,精确度仅0.006。案例研究中,流程处理3789小时数据输出169小时候选片段(22倍数据缩减),质检确认73段真阳性(含65次嚎叫事件),总体召回率81.3%,精确度0.012。生态数据无损失:3个狼群、10只成狼和3窝幼狼均被检测。不同部署点精确度波动显著(R171安静山区接近0.778,R183近道路村庄仅0.004)。

讨论

HOWLish在实地测试中实现81.3%召回率,同时减少15倍人工时间,为狼群远程传感提供可行方案。假阳性多源于与狼嚎时频特征相似的信号(风机噪声、引擎声、牛铃等)。相比前人研究(St?hli等召回率21%,BirdNET野外测试失败),HOWLish表现出更优的野外适用性。精确度低主要源于类别不平衡,但1.44假阳性/小时的操作效率显著优于纯人工处理。模型可能推广至其他灰狼亚种(伊比利亚狼与北美狼嚎叫结构相似),但仍建议本地化验证。未来可通过延长时序窗口、采用序列模型进一步提升性能。

结论

本研究建立了开源狼嚎自动检测的基准,HOWLish能有效突破声景分析瓶颈,推动狼群保护中的大规模声学监测应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号