基于深度学习与迁移学习的家猫声音年龄预测模型研究及其在生物声学中的应用

【字体: 时间:2025年10月04日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对非人类物种年龄估计的挑战,首次构建家猫发声数据集并开发深度学习管道,通过迁移学习模型(VGGish、YAMNet、Perch)实现年龄分类。VGGish表现最佳(F1-score 72%),为兽医护理和野生动物保护提供非侵入性年龄评估工具,推动跨物种通信和数字生物声学发展。

  
人类与家猫共处数千年,全球约有6亿只猫与人类共同生活,但我们对这些毛茸伙伴的通信习惯仍知之甚少。近年来研究虽在猫识别人类个体、响应姓名及多模态信号交互方面取得进展,但声音与年龄的关系仍未被充分探索。年龄估计对兽医护理、动物福利和保护至关重要,尤其在非人类物种中,自动化年龄预测技术发展滞后。人类声音年龄估计已受益于大规模数据集和深度学习技术,但非人类声音研究仍处于起步阶段。
为此,研究人员开展了针对家猫声音的年龄预测研究,首次公开专门数据集,并利用迁移学习模型提取声学特征,构建深度学习管道。该研究发表在《Scientific Reports》,旨在通过非侵入性方法推动跨物种通信和生物声学应用。
研究采用迁移学习技术,利用预训练模型VGGish、YAMNet和Perch提取声音特征,通过多层感知器(MLP)进行年龄分类。数据集包含793个家猫发声样本(幼猫135只、成猫405只、老猫253只),通过公开征集和高质量音频平台(如freesound.org)收集,使用Dolby On应用确保录音质量(48kHz WAV格式)。数据处理包括手动提取声音片段、标准化音频格式,并应用分层分组交叉验证防止数据泄露。超参数调优使用Optuna,性能评估以宏平均F1-score为重点,避免类别不平衡影响。

数据收集与处理

研究团队收集了首个公开家猫发声数据集,包含793个样本,按年龄分为幼猫(0-0.5岁)、成猫(0.5-10岁)和老猫(10岁以上)。录音质量严格把控,丢弃低质量或重叠声音样本,确保每个声音片段纯净。数据集通过在线社区和个人网络征集,辅以信息册和宣传视频推广。

迁移学习模型应用

VGGish、YAMNet和Perch作为特征提取器,将音频转换为频谱图并生成高维嵌入向量。VGGish使用16kHz采样率、25ms窗口和10ms跳跃大小的短时傅里叶变换(STFT),生成64个梅尔频带日志频谱图。YAMNet处理与VGGish相似,而Perch使用32kHz采样率和5秒片段。VGGish本地运行表现最佳,YAMNet和Perch通过TensorFlow Hub推理。

下游分类与性能评估

特征嵌入通过MLP网络分类,应用标准化缩放和类别权重平衡处理数据不平衡。使用嵌套交叉验证和分层分组确保评估无偏。VGGish在分类任务中达到72% F1-score和74%准确率,二进制分类(幼猫vs老猫)达到93% F1-score和95%准确率。YAMNet和Perch因过拟合和窗口不匹配问题表现较差。

结果分析与可视化

混淆矩阵显示幼猫和老猫很少误判,但成猫与老猫存在混淆。性别分析未发现显著趋势,莱文检验证实结果方差无统计显著性。多数投票机制提升成猫准确率,但幼猫和老猫略有下降,可能与声音时长和样本量差异有关。
研究成功验证了通过深度学习从家猫发声预测年龄的可行性,VGGish作为特征提取器表现最优。数据集和管道为未来研究提供基础,但存在声音重叠导致预测冲突、性别数据有限等限制。应用潜力广阔,可扩展至其他物种,支持兽医、保护和跨物种通信。未来工作可聚焦数据扩展、特征优化和集成方法提升性能。
该研究通过创新方法解决了非人类物种年龄估计的难题,为数字生物声学和动物行为研究开辟了新方向。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号