编辑推荐:
为解决传统鸟类识别耗时费力、准确率受多因素限制的问题,研究人员开展基于深度学习的自动化鸟类物种识别研究。利用 4 种预训练模型(DenseNet201、EfficientNetB7 等)的软投票集成模型,在 525 种鸟类数据集上实现 99.6% 准确率,优于现有方法,为鸟类监测与保护提供新工具。
鸟类作为生态系统的重要指示生物,其物种准确识别对生物多样性监测、气候变化影响评估及濒危物种保护至关重要。传统依赖人工观察和专家知识的鸟类识别方式,不仅耗时耗力,还面临物种多样性高、种内变异大、环境干扰(如低可见度)等挑战,难以满足现代生态学研究和保护实践的高效性与准确性需求。在此背景下,开发自动化、高精度的鸟类物种识别技术成为学界和保护领域的迫切需求。
为攻克上述难题,研究人员开展了基于深度学习的鸟类物种识别系统研究。通过整合多种深度学习模型的优势,构建了开源工具 BirdRecon,旨在为鸟类学家、保护工作者及鸟类爱好者提供可靠的物种识别支持,推动鸟类研究与保护工作的智能化发展。
研究机构信息在原文中未明确提及,研究人员开发了 BirdRecon 系统。该系统通过集成 4 种预训练深度学习模型(DenseNet201、EfficientNetB7、InceptionV3 和 ResNet50V2),采用软投票集成技术,显著提升了分类的准确性和鲁棒性。实验结果表明,该集成模型在包含 525 种鸟类、超 8.4 万张训练图像的基准数据集上,实现了 99.6% 的分类准确率、99.7% 的精确率和 99.6% 的召回率,性能优于现有最先进方法 0.51%。相关研究成果发表在《Ecological Informatics》。
主要关键技术方法
研究采用迁移学习策略,基于 ImageNet 预训练的 4 种卷积神经网络(CNN)模型(DenseNet201、EfficientNetB7、InceptionV3、ResNet50V2)进行特征提取,并通过添加全局平均池化层和 Softmax 激活的全连接层实现分类任务定制。数据预处理阶段应用随机剪切、缩放、水平翻转(概率 100%)、±20° 旋转等数据增强技术,缓解类不平衡问题。训练过程中采用随机梯度下降(SGD)优化器、分类交叉熵损失函数,结合早停机制防止过拟合。模型部署时将训练好的模型转换为 HDF5 和 TensorFlow Lite 格式,以支持云端和边缘设备(如移动端)的高效运行。
研究结果
个体模型与集成模型性能对比
- 个体模型:EfficientNetB7 表现最优(准确率 98.3%),其次为 DenseNet201(97.1%)和 ResNet50V2(97.2%),InceptionV3 最低(96.3%)。
- 2 模型集成:DenseNet201+EfficientNetB7 与 EfficientNetB7+ResNet50V2 组合准确率均达 97.5%,但 InceptionV3+ResNet50V2 仅 96.5%,显示弱模型可能拖低整体性能。
- 3 模型集成:不同组合准确率稳定在 96.7%-97.0%,提升有限。
- 4 模型集成:通过软投票集成全部 4 种模型,准确率跃升至 99.6%,精确率 99.7%,召回率 99.6%,F1 分数 99.6%,显著优于个体及小集成模型,验证了多模型协同的有效性。
与现有方法的性能对比
在包含 525 种鸟类的基准数据集上,BirdRecon 的 4 模型集成方案显著优于单一模型及现有集成方法。例如,EfficientNetB0 准确率 89.0%,YOLOv5+EfficientNetB3 达 98.0%,而 SS 等人(2024)的最优单模型 EfficientNetB0 为 99.09%。BirdRecon 以 0.51% 的优势超越次优方法,凸显了软投票集成结合数据增强和早停策略的综合优势。
结论与讨论
BirdRecon 通过多模型集成和数据增强等技术,成功突破了单一深度学习模型在鸟类物种识别中的性能瓶颈,为自动化生物识别领域提供了新的方法论参考。其开源特性(代码托管于 GitHub)促进了学术合作与技术迭代,而支持英语、印地语、泰卢固语的多语言界面及集成 Google Gemini 物种描述和 Wikimedia Commons 视觉参考的功能,进一步提升了工具的易用性和信息丰富度。尽管当前版本仅支持图像识别(暂未集成声音识别),且在极端环境下的鲁棒性有待提升,但通过结合用户提供的地理位置、栖息地等上下文信息,未来可进一步优化识别精度。此外,开发 iOS 版本、拓展语言支持及整合可解释人工智能(XAI)技术,将推动 BirdRecon 成为全球鸟类研究与保护的核心工具,助力生物多样性监测和濒危物种保护行动,具有重要的科学价值和实践意义。