编辑推荐:
此前研究对狨猴(Callithrix jacchus)发声的分析受限于采样率和标注不足。为解决此问题,研究人员构建大型狨猴发声数据库。他们获取超 80 万条、253 小时的 96kHz 采样数据,约 21.5 万条标注发声类型,为相关研究提供重要资源。
在动物交流的神秘世界里,非人类灵长类动物作为人类的近亲,它们丰富多样的发声信号就像一把把神秘的钥匙,或许能为我们打开理解语言进化的大门。其中,普通狨猴(Callithrix jacchus)因其在神经科学研究中的重要地位,成为众多科学家关注的焦点。然而,过往对狨猴发声的研究却困难重重。一方面,传统音频录制设备的采样率较低,无法完整覆盖狨猴 125Hz - 36kHz 的听力范围,导致许多重要的声学信息丢失;另一方面,已有的数据集标注数量不足,难以满足深度学习(Deep Learning)等先进分析方法对数据量的需求。而且,大部分手动标注的发声数据未公开共享,严重阻碍了相关研究的深入发展。
为了突破这些困境,来自法国艾克斯 - 马赛大学(Aix - Marseille University)拉蒂莫内神经科学研究所(La Timone Neuroscience Institute)和信息与系统实验室(Laboratoire d’Informatique et Systèmes)的研究人员展开了一项具有开创性的研究。他们精心打造了一个大型的普通狨猴发声注释数据集,这项研究成果发表在《Scientific Data》上,为该领域的发展带来了新的曙光。
在研究过程中,研究人员运用了多种关键技术方法。首先,在数据采集方面,他们在隔音的动物饲养设施中,使用频率响应为 20Hz - 50kHz 的麦克风,以 96kHz 的采样率,持续 40 个月记录了约 20 只狨猴的发声,获取了长达 997 小时的原始音频数据。其次,在数据处理与标注环节,他们结合信号处理和深度学习工具,通过检测、基于聚类的标注和迭代标签细化三个步骤,对大量的发声数据进行处理。利用卷积自动编码器(Convolutional Auto - encoder)和 UMAP 降维算法等技术,实现了对发声类型的自动标注和分类 。
研究结果
- 构建大型数据集:经过一系列处理,研究人员成功获取并分割出超过 800,000 个狨猴发声文件,总时长达到 253 小时。其中,约 215,000 个发声被标注了具体的发声类型,涵盖了婴儿哭声(Infant cry)、Phee、Seep、Trill、Tsik 和 Twitter 等常见类型135。
- 验证数据集准确性:为确保数据的可靠性,研究人员从数据集中选取 700 个具有代表性的录音,邀请四位独立专家进行交叉检查。经检验,发声类型识别的平均错误率为 9.43%,证明了数据集具有较高的准确性和一致性2。
- 开发可视化工具:为方便用户进一步探索数据集,研究人员开发了 Marmaudio Explorer 这一交互式可视化界面。它可以展示发声的低维投影,用户能够通过该界面选择感兴趣的点,查看相应发声的频谱图,并保存相关元数据和频谱图图像4。
研究结论与讨论
这项研究意义重大。从进化角度来看,通过对狨猴发声的深入研究,有助于我们理解语言在进化过程中的发展机制。例如,研究某些叫声类型是否经常一起出现,能为探讨物种间交流差异提供线索 。从神经科学层面,该数据集为利用深度学习研究狨猴发声的皮质处理机制提供了丰富的数据支持。此前,由于缺乏足够的数据,训练基于深度学习的模型来研究猴子发声的皮质处理与模型学习表示之间的相似性难以实现,而本研究的数据集使得这一研究成为可能 。此外,利用标注数据训练分类器,还能为在自然环境中被动监测狨猴发声提供有力工具,尽管模型可能需要迁移学习以适应不同的听觉环境,但这无疑为相关研究开辟了新的方向 。
然而,该研究也存在一定的局限性。数据集中缺乏发声者的身份信息和发声时的具体情境,这限制了对发声中编码信息以及发声发展过程(如婴儿与成年叫声类型的相似性)的研究。未来的研究可借助能够捕捉这些信息的监测系统加以完善。总体而言,这项研究为灵长类动物发声研究搭建了重要的平台,虽然还有待改进,但已为后续更深入的探索奠定了坚实基础,有望在动物交流、神经科学和语言进化等多个领域引发新的研究热潮 。