解码自然旋律:机器学习在声景分析中评估鸟类多样性的意义与挑战

《ARTIFICIAL INTELLIGENCE REVIEW》:Decoding nature’s melody: significance and challenges of machine learning in assessing bird diversity via soundscape analysis

【字体: 时间:2025年11月16日 来源:ARTIFICIAL INTELLIGENCE REVIEW 13.9

编辑推荐:

  本刊编辑推荐:为解决被动声学监测(PAM)产生的大规模声景数据自动化分析难题,研究人员系统回顾了基于机器学习(ML)的声景组分识别(SCR)和声学指数(AIs)两种主流方法在鸟类多样性评估中的应用。研究厘清了不同方法的优势与局限,首次提出统一分析框架,构建了证据缺口图谱,为大规模生物多样性监测提供了方法论指导,对推动《昆明-蒙特利尔全球生物多样性框架》实施具有重要实践意义。

  
随着全球生物多样性丧失速度加剧,高效、准确的生物多样性监测技术成为生态学研究的迫切需求。鸟类作为环境健康的敏感指示剂,其种群动态能有效反映生态系统变化。传统鸟类监测方法如人工调查和陷阱法存在侵入性强、劳动密集、难以大范围推广等局限。被动声学监测(PAM)技术的兴起为突破这些瓶颈提供了新途径,它通过部署自主录音设备持续采集环境声音,形成包含生物声(biophony)、地声(geophony)和人为声(anthropophony)的完整声景数据。然而,PAM产生的海量音频数据对传统人工分析方法提出巨大挑战,如何自动化、精准地从这些数据中提取生态信息成为当前研究的核心问题。
在此背景下,机器学习(ML)尤其是深度学习(DL)技术为声景分析带来了革命性突破。本文系统梳理了2019-2024年间ML在鸟类声景分析中的应用进展,重点关注两种主流方法:声景组分识别(SCR)和声学指数(AIs)。SCR方法致力于从粗到细识别声景中的不同组分,从生物声/地声/人为声的大类识别,到分类群、物种乃至个体水平的精细识别;而AIs方法则通过数学函数量化声景的整体特征,从而推断生物多样性水平。这两种方法各有优劣:SCR能提供详细的物种出现数据,但受标注数据稀缺、模型泛化能力差等限制;AIs操作简便适合大尺度监测,但其与生物多样性的相关性常受环境因素干扰。
为开展本项研究,作者团队采用了系统文献综述法,在Google Scholar搜索引擎中组合使用声景、生物声学、鸟类、声音分类、声学指数等关键词,筛选出2019年1月至2024年10月期间发表的同行评议文献,排除多模态数据和未经评审的预印本。通过分析收集到的文献,本研究在三个层面实现了创新:首次提出统一的分析层次结构,明确了SCR与AIs方法的优先适用条件;构建了证据缺口图谱,定量识别了开放集识别、方言感知开发等研究前沿;为快速发展的生物声学监测领域提供了前瞻性研究议程。
在技术方法层面,研究重点分析了声景组分识别(SCR)的全流程技术链条。预处理阶段包括降噪和分割两个关键步骤,其中深度学习降噪方法如深度特征损失网络能更有效消除噪声同时保留生物声音完整性。特征提取方面,除了传统的手工特征(如MFCCs、梅尔谱图),学习式音频前端(如SincNet、LEAF)能自适应提取任务相关特征。识别模型则涵盖了从鸟类音频检测(BAD)到鸟类鸣声识别(BVR)的完整流程,包括基于CNN、CRNN、注意力机制等深度学习架构,以及针对开放环境设计的开放集识别(OSR)方法。对于声学指数(AIs)方法,研究详细分析了七种常用指数(ACI、ADI、AEI、AR、BIO、H、NDSI)的数学公式、生态学意义及应用局限,并探讨了通过多指数组合、假彩色声谱图(FCS)等技术提升指数有效性的策略。
研究结果方面,声景组分识别方法部分展示了从粗到细的识别层级体系。在物种及以下水平识别中,预处理技术的进步显著提升了低信噪比(SNR)环境下的识别性能。特征提取环节,自适应频率倒谱系数(AFCCs)等新型特征表征方法增强了声音的判别能力;而学习式前端与识别模型的联合训练则实现了更优的特征学习。识别模型发展尤为迅速,BirdNET等系统能识别超过6000种鸟类,平均精度均值(MAP)达0.791。针对开放世界识别挑战,研究总结了特征距离计算、分布比较和预测概率评估三种主要策略,以及主动学习和深度聚类在少标注/无标注场景下的应用价值。
研究特别关注了两个特殊问题:方言和合唱。鸟类鸣声存在显著的地理方言变异,这对跨区域物种识别构成挑战。实例归一化(IN)、音频残差归一化等技术能有效缓解方言变异影响。合唱场景中重叠鸣声的识别则通过声源分离(如BioCPPNet、多通道U-Net)和复音声音事件检测(PSED)两种途径解决。在物种以上水平识别中,研究对比了不同特征(梅尔谱图、MFCCs、声学指数)与分类模型(CityNet、随机森林、DenseNet等)的组合性能,证实了深度学习在高层声景组分分类中的有效性。
声学指数方法部分深入探讨了指数与鸟类多样性的关系困境。大量研究表明,声学指数与鸟类丰富度(BR)、多度(BA)等多样性指标的相关性受栖息地类型、环境噪声、计算方法等多种因素影响。例如,BIO指数在多种生境中表现稳定,而ACI、ADI等指数的有效性则存在较大变异。通过多指数组合(如假彩色声谱图)和针对性滤波(如频率依赖声学多样性指数FADI),能显著提升指数的生态学指示能力。
在讨论与展望部分,研究指出了五个关键发展方向:标准化数据采集与标注数据集是推动领域发展的基础;大型多模态模型(LMMs)为声景组分识别注入新动能;声景与生物多样性关系的理论研究需深化;声学指数与深度学习的融合将发挥各自优势;智能声景分析正在变革生物多样性保护实践。这些方向共同勾勒出机器学习在生态声学领域的广阔前景。
本研究通过系统梳理机器学习在鸟类声景分析中的应用现状,首次整合了SCR与AIs两种方法论路径,为不同监测目标提供了清晰的方法选择指南。提出的统一分析框架和证据缺口图谱不仅解决了长期存在的 methodological divide(方法论分歧),还为后续研究指明了优先方向。随着PAM技术的普及和ML算法的持续创新,声景分析有望成为长期生物多样性监测的核心工具,为全球生物多样性保护提供坚实的数据支撑和技术保障。该成果发表于《Artificial Intelligence Review》,对推动生态学与人工智能的跨学科融合具有里程碑意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号