基于改进EfficientNet-B0的轻量化鸟类鸣声识别方法:融合ECA与CBAM注意力机制的高效模型

【字体: 时间:2025年07月04日 来源:Scientific Reports 3.8

编辑推荐:

  为解决传统鸟类鸣声识别模型参数量大、计算成本高的问题,东北林业大学研究人员提出了一种基于EfficientNet-B0架构的轻量化改进方法。通过引入ECA注意力机制减少参数复杂度,调整MBConv结构的卷积核尺寸,并在中间层加入CBAM注意力机制,最终采用Adam优化算法加速收敛。该模型在10种鸟类识别任务中达到96.04%准确率,较原模型提升3.2%,参数量减少16.4%,为野外监测设备部署提供了高效解决方案。

  

在工业化进程加速的今天,鸟类多样性正面临严峻挑战。作为生态系统的"哨兵",鸟类种群变化直接反映环境健康状况。传统鸟类监测主要依赖图像识别,但枝叶遮挡和恶劣天气常导致识别失败。相比之下,鸟类鸣声具有物种特异性且不受视觉干扰,成为更可靠的识别依据。然而现有深度学习模型存在参数量大、内存需求高等问题,难以部署在资源有限的野外监测设备中。

针对这一技术瓶颈,东北林业大学计算机与控制工程学院的Haolun He和Hui Luo在《Scientific Reports》发表研究,提出基于EfficientNet-B0架构的轻量化改进模型。研究团队通过三项关键技术突破:首先用ECA(Efficient Channel Attention)注意力机制替代原SE(Squeeze-and-Excitation)模块,避免高维特征压缩导致的信息损失;其次将MBConv结构中5×5深度卷积(Depthwise Convolution)调整为3×3,防止感受野过大影响注意力机制效果;最后在模型中间层嵌入CBAM(Convolutional Block Attention Module)注意力机制,补充空间位置信息。训练阶段采用Adam优化算法替代SGD(Stochastic Gradient Descent),显著提升收敛速度。

研究方法上,团队首先对来自BirdsData和Xeno-canto的32,219个鸟类鸣声样本进行预处理,包括预加重、汉明窗分帧等操作。特征提取采用MFCC(Mel-Frequency Cepstral Coefficients)及其一阶、二阶差分系数,共获得128维声学特征。网络架构基于EfficientNet-B0的复合缩放原则,保持α=1.2、β=1.1、γ=1.15的比例系数。改进后的模型通过5折交叉验证评估性能。

研究结果显示,在10种鸟类识别任务中,改进模型准确率达96.04%,较原EfficientNet-B0提升3.2%。消融实验证实各改进组件的有效性:单独使用ECA模块使准确率提升0.46%(93.50%);结合3×3深度卷积后进一步提升至95.60%;最终加入CBAM和Adam优化实现最佳性能。对比实验中,该模型以3.36M参数量超越MobileNetV2(3.50M/94.61%)、GhostNetV2(4.89M/92.69%)等主流轻量化模型。特别在亲缘关系近的鸻鹬类(Himantopus himantopus和Tringa totanus)识别中,虽存在15%误判率,但整体F1-score达0.995。

技术细节方面,ECA模块通过自适应确定一维卷积核大小k(公式9),避免传统SE模块的维度压缩。CBAM则采用"通道-空间"双注意力路径,其中空间注意力使用7×7卷积核(公式12)。Adam优化器将训练时间缩短37%,800秒内即可完成收敛(图9)。模型通过调整MBConv结构中DW卷积的kernel size,使参数量减少16.4%,同时保持96.33%的5折交叉验证稳定性(表9)。

这项研究的重要意义在于:首先,提出的轻量化方案使模型参数量降至3.36M,为野外设备的嵌入式部署创造条件;其次,融合ECA和CBAM的双重注意力机制,在降低计算复杂度的同时提升特征表达能力;最后,采用的Mel尺度特征提取完美匹配鸟类鸣声的共振峰能量范围(1-8kHz),为声学生态学研究提供新工具。未来可进一步优化亲缘相近物种的区分能力,并探索模型在更大规模鸟类数据集上的迁移学习潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号