基于卷积神经网络的海鸟声行为自动分类:一种开源的海上信天翁声音分类器
《Ecological Informatics》:Automated classification of albatross acoustic behaviour at sea: A free and open-source classifier for seabird sounds
【字体:
大
中
小
】
时间:2025年10月20日
来源:Ecological Informatics 7.3
编辑推荐:
本研究针对野生动物声学监测中大数据量人工分析困难的瓶颈,开发了一种基于CNN的自动分类方法。研究人员利用Google Colab平台构建通用模型,对佩戴录音设备的信天翁海上觅食行为声音(水上活动、飞行、鸣叫和理羽)进行分类,测试准确率达95%。该开源工作流程为生态学和保护生物学提供了高效、可及的声学数据分析方案。
在广阔的海洋上,信天翁这类濒危海鸟的生存状况一直牵动着生态学家们的心。它们如何在大海上生活?有哪些行为模式?又面临着怎样的威胁?要回答这些问题,传统观察方法显得力不从心。近年来,动物背负式录音设备的出现为我们打开了一扇窥探海鸟神秘生活的窗户,能够非侵入式地收集高质量录音。然而,这项技术也带来了新的挑战——研究人员常常需要处理数百小时的音频数据,传统的听觉和视觉检查方法不仅劳动强度大、耗时耗力,还容易出错。
面对这一困境,机器学习技术特别是卷积神经网络(CNN)的发展带来了革命性的解决方案。CNN作为一种专为图像处理设计的深度学习模型,可以通过检查音频记录的声谱图来实现声音的自动识别和分类。但CNN的训练和优化需要大量标记数据和计算资源,这对许多研究人员来说是个不小的门槛。
正是在这样的背景下,一项开创性的研究在《Ecological Informatics》上发表。研究人员开发了一种免费开源的方法,用于自动分类信天翁在海上发出的声音行为。他们利用Google Colaboratory(Colab)这一基于网页的交互式计算环境,构建了一个通用CNN模型,专门用于分析两种信天翁物种在海上觅食期间记录的声音。
为了开展这项研究,研究人员在南乔治亚岛的鸟岛收集了5只黑眉信天翁和5只漂泊信天翁在2014/15年南半球夏季育雏保护期的声学数据。鸟类装备了Edic-mini Tiny Solar-300小时数字录音机、IGotU GT-120 GPS记录仪以及Intigeo C250光水平地理定位器和浸水传感器。总共436小时的海上录音经过手动分析和分类,识别出四种主要声音类别:飞行(翅膀拍打声、跳跃声、滑翔时的风声)、鸣叫(标记个体或同种个体的叫声)、理羽(重复的敲击、抓挠或摩擦声)以及水上活动(溅水、划水、水位移声)。
研究团队采用了结构化的模型开发工作流程,主要包括音频数据准备、预处理、模型架构与训练以及性能评估四个关键环节。他们首先将标注的音频片段导入Colab环境,按80:10:10的比例划分为训练集、验证集和测试集。音频波形通过短时傅里叶变换(STFT)动态转换为声谱图,文件重采样至22,050 Hz以确保与TensorFlow/Keras音频处理管道的兼容性。CNN模型使用TensorFlow框架构建,包含10个顺序层,专门用于数据预处理、特征提取和分类。训练过程采用Adam优化器和分类交叉熵损失函数,共进行10个epoch的训练。
模型在测试集上表现出色,全局准确率和精确度均达到95.0%,灵敏度为94.6%,特异性为98.2%。不同声音类别的性能存在差异,飞行声音的分类性能最高,准确率达到99.7%,而水上活动声音的精确度相对较低,为89.9%。混淆矩阵分析显示,理羽声音的误分类率最高,达11.1%,主要被误判为水上活动(8.5%)和鸣叫(2.7%)。
训练和验证准确度曲线表明,模型在前几个epoch快速提升性能,到第9个epoch时训练准确度达到约95%,验证准确度稳定在93%左右。训练损失函数持续下降,而验证损失在第4个epoch后开始趋于平稳。值得注意的是,尽管训练准确度持续提高,但验证准确度出现波动,验证损失在第10个epoch后出现间歇性峰值,表明存在过拟合迹象。每个epoch在Colab环境提供的NVIDIA Tesla T4 GPU上仅需9-10秒,完整训练过程在两分钟内完成,体现了模型的计算效率和可及性。
尽管模型整体表现优异,但各类声音的自然重叠给分类带来了挑战。海鸟经常在喂食、与同种个体在水上互动或短暂飞行和着陆时发出叫声,理羽通常发生在海面,那里也可能存在鸣叫和溅水声。尽管研究团队努力选择"纯净"的声音片段,但标记为单一类别的音频可能包含多种声音类型,这在一定程度上导致了误分类。未来的研究可以通过细化数据集或应用更复杂的模型架构来提高分类准确性。
这项研究的创新之处在于首次开发了一个专门用于分类信天翁海上声行为的自动化工作流程。与以往主要限于群落观察的研究不同,这项工作开创性地描述了这些物种在海上声行为特征。通过利用开源平台和可及工具,该研究为自动化声学监测的未来发展奠定了基础,使其能够为各种研究人员所使用。
研究结论强调,使用动物背负式仪器进行野生动物声学监测是一种相对较新且尚未充分开发的工具,在生态学、动物行为和保护研究中具有广泛的应用潜力。自动音频分类系统如深度学习和机器学习模型能够快速、准确地处理大量音频数据,与传统手动分析方法相比具有明显优势。这项工作证明,基于网页的通用深度学习CNN模型可以经过训练准确分类海鸟声音,同时凸显了获取免费开源信息资源的重要性。
这项研究的重要意义在于为后续研究奠定了基础,自动分类的海鸟声音可用于基于声学的时间活动预算计算,以及海上产生声音的空间分布和环境驱动因素分析。机器学习基于的自动音频分类器可以作为探索更广泛声景的工具,为了解动物生活的各个方面提供机会,包括行为、与环境的互动以及面临的特定威胁。通过降低技术门槛,这项研究使得更多研究人员能够利用先进声学监测技术,为海鸟保护和海洋生态系统研究开辟了新途径。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号