综述:相同数据,不同结果?生物声学中的机器学习方法

【字体: 时间:2025年07月10日 来源:Methods in Ecology and Evolution 6.2

编辑推荐:

  这篇综述系统评估了16种哺乳动物声学数据中特征提取(MFCC/LFCC/时频特征/HCTSA)和分类方法(DFA/NN/RF/SVM)的组合效果,发现梅尔频率倒谱系数(MFCC)与随机森林(RF)的组合能提供最稳定可靠的个体识别结果,为跨物种生物声学研究建立了标准化分析框架。

  

生物声学研究的标准化之路

摘要
自动声学分析在行为生态学中的应用日益广泛,其中个体识别是许多研究的关键环节。然而,特征提取和分类方法的差异限制了不同物种和研究结果的可比性。这项研究通过系统评估不同方法组合在16种哺乳动物数据集上的表现,为建立标准化分析流程提供了重要依据。

文献现状
通过对2000-2022年文献的系统回顾发现:52.9%研究使用判别函数分析(DFA),但仅11.1%验证了数据是否符合假设;47.9%的研究未说明特征选择依据;使用的41种特征参数和18种分类器呈现高度碎片化。灵长类(43.5%)、食肉目(23.9%)和翼手目(6.5%)是研究最集中的类群。

方法学比较
研究设计了严谨的实验方案:

  1. 特征提取
  • 时频特征:通过Raven Pro提取9个鲁棒性声学参数
  • 梅尔/线性倒谱系数(MFCC/LFCC):分别用BehaviouR包和Python spafe库处理
  • 时间序列分析(HCTSA):采用MatLab工具箱进行7947种特征计算
  1. 分类器设置
  • 随机森林(RF):1000棵树,自动优化mtry参数
  • 支持向量机(SVM):径向基核,自动调参
  • 神经网络(NN):PCA降维后建模
  • 判别分析(DFA):严格检验多元正态性和协方差齐性

关键发现

跨物种稳定性
MFCC特征配合RF分类器展现出最佳稳定性:

  • 准确度波动范围仅0.102(其他方法达0.582)
  • 在60/30/10样本量下均保持稳健性能
  • 个体数量从9减至2时,准确度提升但排序不变

LFCC与MFCC表现相当,验证了倒谱系数对高频动物的适用性。而HCTSA虽能提取7947维特征,但存在明显过拟合风险。

样本量影响
30个样本/个体即可获得稳定结果:

  • n10→n30准确度提升显著(+15.2%)
  • n30→n60改善有限(+3.8%)
  • 时频特征在样本不足时波动最大(Δ=0.227)

应用建议
基于证据提出标准化流程:

  1. 优先采用MFCC/LFCC表征声学特征
  2. 推荐RF作为基线分类器
  3. 每个体至少采集30段有效发声
  4. 必须报告分类器的交叉验证结果

该框架已成功应用于羊驼、家猫、埃及果蝠等14物种的16种叫声分析,为理解哺乳动物声音通讯的进化意义提供了可比性基础。未来研究可结合深度学习等新兴技术,进一步探索声学个体识别的生物学机制。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号