orcAI:基于深度学习技术的虎鲸声学信号自动检测与分类系统及其在海洋哺乳动物生态研究中的应用
【字体:
大
中
小
】
时间:2025年10月11日
来源:Marine Mammal Science 1.9
编辑推荐:
本刊推荐:orcAI创新性地将ResNet-CNN与LSTM网络结合,构建了能够同时识别虎鲸(Orcinus orca)社交鸣叫(如脉冲呼叫、哨声)和觅食相关声信号(如呼吸声、尾击声)的深度学习框架。该模型通过谱图时空特征分析实现了98.2%的检测精度,其独特的掩码训练策略有效解决了生物声学研究中部分标注数据的训练难题,为海洋哺乳动物行为生态学研究提供了开源工具支持。
声学监测技术在动物行为研究中具有不可替代的价值,特别是在视觉观察受限的海洋环境中。传统生物声学研究受限于人工标注的效率瓶颈,为此研究者开发了orcAI——一种新型深度学习框架,专门用于自动检测和分类冰岛鲱鱼觅食型虎鲸的多种声学信号。该系统整合了基于残差网络的卷积神经网络(ResNet-CNN)与长短期记忆网络(LSTM),能够同时捕捉声谱图中的空间特征和时间上下文信息,实现对七类声学信号(包括脉冲呼叫、聚集呼叫、哨声、嗡嗡声、尾击声、猎物处理声和呼吸声)的精确识别与时间边界划定。
数据预处理阶段,研究团队将不同采样率的原始音频统一降采样至48 kHz,通过librosa库生成截频16 kHz的声谱图,并采用三分位裁剪归一化处理增强对比度。针对标注数据不完整的技术难题,创新性地引入三态标注方案(1/0/-1),通过掩码机制区分真实信号缺失与未标注状态,这一设计显著提升了模型在真实场景下的泛化能力。
模型架构方面,研究对比了ResNet1DConv(50层/2.4万参数)和ResNetLSTM(52层/36.8万参数)两种架构。后者通过双向LSTM层捕获声学信号的时序依赖关系,在超参数优化后最终模型达到100.1万参数规模,在包含24万样本的未过滤测试集上获得98.2%的掩码二元准确率。模型训练采用动态学习率调整(初始0.0001)和早停策略,有效避免了过拟合。
混淆矩阵显示,模型对数据量充足的声信号类型(如脉冲呼叫)表现出优异性能,其召回率达75.48%,精确度52.41%。而对于训练样本较少的猎物处理声(总时长4分19秒)和哨声(2分44秒),模型虽存在识别局限,但仍具备初步筛查价值。时序分析表明,ResNetLSTM模型能更准确地识别声学事件的起止边界,特别对虎鲸捕食行为中典型的声学序列(聚集呼叫→尾击→嗡嗡声→猎物处理声)展现出良好的连续检测能力。
作为开源工具(GitHub: ethz-tb/orcAI),orcAI提供预测和标注过滤双模式操作接口,支持WAV音频直接输入和Audacity兼容的标注输出。该系统不仅适用于虎鲸种群比较研究,其模块化设计更为其他海洋哺乳动物的声学研究提供了可扩展框架。未来结合Transformer架构与多种群联合训练,有望进一步提升对复杂声学序列的解析能力。
当前模型对高频声信号(>16 kHz)的处理能力尚未开发,且依赖视觉特征而非听觉感知的特征提取方式,对低信噪比信号的检测存在挑战。随着标注数据的积累,融合心理声学特征与自监督预训练策略,将推动生物声学分析向更高精度和适应性发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号