
-
生物通官微
陪你抓住生命科技
跳动的脉搏
深度学习模型在亚洲象声音识别中的应用:基于斯里兰卡和马来西亚数据的性能评估与和谐共存启示
【字体: 大 中 小 】 时间:2025年06月05日 来源:Biological Conservation 4.9
编辑推荐:
为解决人象冲突(HEC)监测难题,研究人员利用卷积神经网络(CNN)开展亚洲象(Elephas maximus)声音自动识别研究。通过分析斯里兰卡(E.m.maximus)和马来西亚(E.m.indicus)两个亚种的声音特征,发现CNN模型对本地数据识别准确率达98.45%,但跨亚种识别性能降至67.93%。该研究为开发生物声学早期预警系统奠定基础,对促进人象和谐共存具有重要意义。
在当今生物多样性急剧丧失的背景下,人兽冲突已成为全球性难题。亚洲象(Elephas maximus)作为濒危物种,其与人类的冲突日益严重,造成农作物损毁、财产损失甚至人员伤亡。传统监测方法存在效率低下、实时性差等局限,亟需开发新型监测技术。这项发表在《Biological Conservation》的研究,创新性地将深度学习技术应用于亚洲象声音识别,为缓解人象冲突提供了科技解决方案。
研究团队采用卷积神经网络(CNN)架构,收集了斯里兰卡(E.m.maximus)和马来西亚(E.m.indicus)两个亚种的象声数据,通过数据增强和k折交叉验证等方法训练模型。关键技术包括:1)使用自主录音单元(ARU)采集野外象声;2)采用Mel声谱图转换和SpecAugment数据增强技术;3)构建四层CNN模型进行声音分类;4)应用主成分分析(PCA)比较不同亚种声学参数差异。
研究结果显示,CNN模型在识别本地象声时表现出色。当训练数据量达到2960个样本时,测试准确率高达98.45%,损失值仅为0.095。然而,当用斯里兰卡训练的模型识别马来西亚象声时,性能显著下降,平均准确率降至67.93%,F1分数在0.67-0.81之间。通过PCA分析15个声学参数发现,两个亚种的声学特征存在部分重叠但也有显著差异,特别是在中心频率(PC1)和时间相关参数(PC4)上差异明显。
在讨论部分,作者指出这项研究首次系统评估了CNN在亚洲象声音识别中的性能,并揭示了亚种间声学差异对模型泛化能力的影响。研究证实了本地数据对模型性能的关键作用,为开发生物声学早期预警系统提供了重要依据。同时,作者也探讨了技术应用的现实挑战,包括硬件限制、能源供应和数据隐私等问题,建议未来研究应关注模型优化和社区参与。
这项研究的创新之处在于将前沿AI技术与传统保护实践相结合,为人象冲突管理提供了新思路。研究结果不仅对亚洲象保护具有直接应用价值,其方法论框架也可推广至其他濒危物种的监测保护。随着技术的不断完善,基于生物声学的智能监测系统有望成为连接人类与野生动物和谐共处的桥梁,为全球生物多样性保护贡献科技力量。
生物通微信公众号
知名企业招聘