《Biologia Futura》:Listening forward: emerging roles of bioacoustics in ecology, evolution, and conservation
编辑推荐:
生物声学正日益从一种以描述为主的研究方向,转向能够预判生态变化的学科。近期创新——从自主录音单元(ARUs)和边缘计算(edge computing)传感器,到受语音技术启发的特征提取方法,以及诸如迁移学习(transfer learning)、无监督发现(u
生物声学正日益从一种以描述为主的研究方向,转向能够预判生态变化的学科。近期创新——从自主录音单元(ARUs)和边缘计算(edge computing)传感器,到受语音技术启发的特征提取方法,以及诸如迁移学习(transfer learning)、无监督发现(unsupervised discovery)和可解释人工智能(explainable AI, XAI)等机器学习技术——正在重塑动物通信研究。上述进展使研究人员得以在此前难以想象的尺度上开展工作。自动化物种识别、个体识别,甚至跨越数十年的文化进化追踪,如今均已具备实现可能。整个生态系统的声景(soundscapes)也能够以前所未有的分辨率加以描绘。展望未来,全球聆听网络、自适应声学指数以及实时生物多样性仪表板正变得愈发现实。研究人员或将很快构建数字模型,用以模拟未来情景下的通信网络。与基因组学(genomics)、生理学(physiology)和机器人学(robotics)的更紧密整合,可能把发声性状与其遗传、生理及生态驱动因素联系起来。与此同时,数据治理、声学隐私以及对地球声学遗产的公平获取等问题仍构成挑战。生物声学有望发展为一门具有预测性与整合性的科学——尤其适合在快速变化的世界中监测、解释并协助守护生命的通信系统。
Introduction
引言部分指出,声学通信处于生态学与进化生物学的核心地位,参与求偶、亲代抚育、领域防御与觅食等关键行为过程。发声信号的形成同时受能量代价、体型约束与感觉系统限制影响,而性选择还可推动信号分化与物种形成。正因声音信号能够影响行为、种群动态与群落结构,聆听生态系统便成为理解生态功能的重要窗口。文章进一步强调,随着人工智能(AI)、气候变化与生物多样性危机相互交汇,生物声学正由描述性学科转变为预测性科学。AI驱动流程已使实时监测与自动化物种识别成为可能,并具备预测生态变化的潜力。与此同时,气候变化不仅改变物种分布,也改变声音传播的物理条件,从而重塑通信网络及捕食者—猎物动态。在此背景下,生物声学连接基础科学与应用保护,可通过非侵入方式探测隐蔽或濒危物种、推断种群动态并追踪群落尺度上的生物多样性变化。作者据此提出,本文将回顾该领域从历史根源到当代技术革新的演进,并讨论其迈向全球聆听网络、生物多样性仪表板与预测性模拟框架的未来方向。
Historical roots
Seeing and measuring sound: from patterns to spectrograms
这一部分回顾了“使声音可视化”的科学史。早期从 Hooke 在振动玻璃板上观察粉末图样,到 Chladni 用沙粒与金属板形成的 Chladni 图形,研究者逐步认识到声音不仅可听见,也可被看见并测量。随后,phonautograph 通过在烟黑纸上记录振动轨迹,实现了声音波形的物理留痕。真正的突破来自 20 世纪 30 年代末贝尔实验室发明的声谱仪(sound spectrograph),研究者首次能够连续生成声谱图(spectrograms),并以时间—频率坐标定量测量通信信号。到 20 世纪 60 年代,实时声谱显示进一步推动了实验研究的发展,使鸟鸣、蛙鸣与鲸类发声的精细结构可以被直接测量,而不再仅依赖听觉经验。作者认为,这一阶段的重要意义在于:声音由瞬时经验对象转化为可重复、可比较、可分析的数据对象,进而为后续定量化研究奠定基础。文章还指出,鲸歌记录不仅推动科学研究,也曾在公众文化层面促进保护运动,显示出声学可视化的社会影响力。
The digital and computational revolution
本节阐述 20 世纪 80—90 年代数字革命如何深刻改变生物声学。便携式数字录音设备与低成本计算机的普及,使研究人员能够在野外连续采集高分辨率声景,进而系统研究隐蔽性、夜行性与稀有物种。设备小型化推动麦克风集成至项圈或微型背负装置,实现对小型哺乳动物个体发声行为的全天候跟踪;海洋研究中,数字声学记录标签(DTAGs)则可同步记录水下声景、下潜剖面与精细运动信息。与此同时,数字信号处理(digital signal processing)显著扩展了分析能力。傅里叶变换(Fourier transform)可将叫声分解为频率成分,倒谱技术(cepstral techniques)揭示超出人耳分辨范围的细微调制特征,主成分分析(principal component analysis, PCA)则可从大规模数据中提炼具有生物学意义的变化轴。作者强调,数字时代不仅提升了数据获取效率,更改变了研究问题本身:通信系统得以跨物种、跨类群进行统计学比较,并为融入系统发育信息的通信进化研究奠定基础,推动生物声学从描述性学科迈向定量科学。
Field methods and recording technologies
Current innovations
本部分聚焦近二十年来野外方法的核心革新——自主录音单元(ARUs)。文章指出,ARUs 已广泛部署于森林、珊瑚礁等多种生境,可持续记录生态系统的声学脉搏。由于不再依赖研究者长期在场,ARUs 显著拓展了监测的时间与空间覆盖范围,并在探测隐蔽物种和稀有事件方面常优于传统调查。同时,ARUs 生成可长期保存的永久档案,使既有录音能够随着算法更新而被重新分析。其可扩展性源于设备微型化、续航提升、成本下降,以及低功耗处理器、大容量存储和到达方向麦克风等技术进步。海量音频数据又与机器学习分析流程相配合,使物种检测、叫声计数乃至行为线索提取在较少人工干预下成为现实。云端平台与标注工具则支持大规模数据集的协作式标注、归档与检索。作者进一步强调,ARUs 还推动了公众参与,大型项目与智能手机平台使公民科学家成为分布式“耳朵”,并通过人类—AI 反馈回路提高模型表现。进一步的发展方向是云连接与边缘计算:录音可近实时传输至中心服务器,或在设备端本地完成噪声过滤、物种分类与重要事件筛选,从而推动生物声学由间断性调查转向连续的生态情报流。
Challenges and future directions
作者同时指出,大规模声学监测网络面临若干现实限制。首先,探测概率本质上并不完美,不同物种在发声强度、叫声行为和季节性活动上的差异,意味着即便在高密度传感器网络中,某些物种仍可能无法被声学探测到。其次,植被结构、风、湿度与降雨等环境因素会改变声音传播与探测距离,从而在时空尺度上引入偏倚。再次,广域部署需要应对电池续航、数据存储及偏远地区设备失效等后勤问题。此外,单个传感器记录通常难以可靠反推出发声者数量与距离,因此要将探测结果转化为丰度或空间分布估计,仍需借助额外传感器阵列或模型方法。展望未来,作者认为 ARUs 正迈向行星尺度的聆听网络。超低功耗电子学、片上系统处理器与稳健无线网络将支持传感器长期运行;太阳能、动能及仿生供能等能量采集技术有望实现近乎永久监测;边缘侧微型 AI 模型则将使设备输出生态学洞见而非原始音频洪流。
Analytical tools and signal processing
Current innovations
这一部分讨论现代生物声学的分析引擎。首先,声学指数(acoustic indices)可将数小时录音压缩为少量指标,以概括声景结构。声学复杂度指数(Acoustic Complexity Index, ACI)用于表征声能随时间的波动,常与物种丰富度、生境质量及总体动物活动相关;归一化差异声景指数(Normalized Difference Soundscape Index, NDSI)有助于区分生物声(biophony)与人为声(anthrophony);谱熵与时熵则从有序性角度反映群落均匀度或生态压力。这些指标已成为从单物种调查到大陆尺度监测的快速、低成本生态状态表征工具。与此同时,受语音技术启发的特征表示显著提升了自动识别性能。Mel 频率倒谱系数(Mel-frequency cepstral coefficients, MFCCs)成为动物发声分析的核心表示形式,Greenwood Function Cepstral Coefficients(GFCCs)与广义感知线性预测(Generalized Perceptual Linear Prediction, GPLP)等方法则进一步引入物种特异性感知滤波。开放源码软件生态的兴起也是关键进展之一,Python 与 R 中的相关库和软件包大幅降低了构建检测与分类流程的门槛,促进了协议统一和全球生物多样性观测中的声学数据共享。
Challenges and future directions
作者指出,生态声学分析工具仍面临显著挑战。声学指数与传统生物多样性指标之间的关系通常仅呈中等强度且具有情境依赖性,因此声学复杂度增加并不总能对应更高物种丰富度。背景噪声、天气条件与人为声音会显著扭曲信号处理特征及其生态解释,而不同麦克风、录音设置和采样率之间的差异也妨碍跨研究比较。对此,文章展望量子启发计算与神经形态计算(neuromorphic computing)可能带来的突破。量子启发遗传算法在噪声环境下已表现出优于经典模型的信号失真抑制能力,量子增强 transformer 也在声景分类中带来性能提升。神经形态系统模拟生物耳蜗的脉冲逻辑,兼具高能效与高分类准确率,适用于野外长期部署,并可能在设备端实现事件优先级排序与本地过滤。
Machine learning and AI
Current innovations
本节系统总结机器学习在计算生物声学中的核心地位。卷积神经网络(CNNs)将声谱图视为图像处理,能够直接学习分层的时频模式,实现接近人工水平的物种识别精度。真正的重要突破在于迁移学习:来自 BirdNET、OpenSoundscape 等大规模模型的嵌入表示具有较强通用性,使研究者仅凭少量标注样本即可对新生境、新物种甚至新类群进行快速微调。数据增强、浅层微调与跨声源预训练进一步提高了模型稳健性。文章还强调,合成训练数据已成为新方向,扩散模型生成的真实感声谱图可增强分类器对风噪或涡轮噪声的耐受性;半监督学习则通过伪标签策略缓解标注不足问题。除物种层面外,个体识别也进展显著。基于 CNN 和 MFCCs 的模型已能在长臂猿、狮子等多个类群中实现高精度个体识别,多任务网络还能跨叫声类型泛化。隐藏马尔可夫模型(HMMs)及带限相位相关方法则为小样本情境提供替代方案。
Challenges and future directions
作者认为,AI 在生物声学中的进一步扩展仍受多重因素限制。模型高度依赖标注数据,而不同类群与区域的数据分布极不均衡;生物信号本身还会受温度、性别、体型等生理与环境因素影响,导致训练数据若覆盖不足则分类可靠性下降。不同生境、录音设备和背景声景之间的域迁移问题,也限制了模型泛化能力。除此之外,深度学习模型常呈现“黑箱”特征,使驱动分类决策的关键声学特征难以解释。针对这些问题,文章将可解释人工智能(XAI)视为下一前沿,指出层级相关传播、SHAP 分析与贝叶斯深度学习等方法正帮助研究者识别模型依赖的谱线索及其置信度。另一重要前沿是无监督发现:自编码器结合谱聚类、层级 Dirichlet 过程 HMMs、动态时间规整(dynamic time warping)与层次聚类等方法,能够从原始录音中发现未知物种、未分类叫声、方言或重复性动机结构,显示出无需全面人工标注即可估计生物多样性基线的潜力。
Applications from individuals to planetary scale
Individuals and populations
在个体与种群尺度上,文章指出生物声学已成为非侵入式监测的重要工具。通过自动化个体识别,研究者可长期跟踪存活、扩散和社会网络,而不必捕捉或标记动物。在识别“是谁在叫”之后,研究正进一步迈向“发声者正在做什么”。可穿戴声学标签与生物记录(bio-logging)结合后,能够记录发声、运动噪声与环境声音,并据此推断飞行、下潜、休息等行为状态;若再整合加速度计等传感器,则可更高精度地区分社会互动语境。作者还讨论了“动物版 Google Translate”式愿景,即从行为识别进一步迈向意义解释。相关理论基础包括序列结构、源—滤波理论(source–filter theory)及社会网络中的信号嵌入,鲸类发声解码项目和跨物种语音表征方案代表了该方向的探索。尽管现实生态系统中的“鸡尾酒会”式重叠噪声环境极其复杂,多模态情境信息、社会网络先验与自监督序列模型可能成为实现意义归因的关键。长期声学数据还揭示通信系统自身的时间演化,如座头鲸歌曲的“文化波”传播与革命式替换,以及其他鸟类方言的代际变化,从而将文化演化纳入进化研究视野。
Communities and ecosystems: the ecoacoustic lens
在群落与生态系统尺度上,生态声学(ecoacoustics)将生境视为由生物声、地球物理声(geophony)和人为声构成的复杂声景。与聚焦单物种不同,这一框架旨在刻画整体声学群落及其时序变化。借助 ACI、ADI 与 NDSI 等指标,研究者能够将海量录音压缩为可比较的生态“生命体征”,用于识别干扰、恢复或人为压力下的生物多样性变化。文章指出,伐木或生境破碎化之后,声学复杂度往往下降,可作为生境退化的敏感指标;在珊瑚礁生态系统中,更丰富多样的声景与健康鱼类种群相关,甚至可促进幼体定殖。长期声景监测还可捕捉季节动态与物候变化,例如较暖年份中的合唱提前出现、晨鸣时序变化及日周期叫声模式改变,从而反映生态系统对气候变化的响应。作者据此认为,生态声学是一种兼具尺度扩展性与操作性的生态健康监测工具,并且在机器学习与全球录音网络支持下,有望形成近实时生物多样性观测系统,同时通过社区和公民科学参与提升覆盖范围与本地适用性。
Cross-disciplinary integration
本节强调生物声学与其他生物数据流整合所带来的多维认知框架。基因组学(genomics)为声学变异提供进化维度,揭示其与种群历史和遗传结构之间的对应关系;在某些类群中,鸣声差异可紧密追踪基因组种群结构,而雄性鸣声性状与雌性偏好之间的基因组耦合则可能加速性选择与物种形成。除遗传差异外,表观遗传机制也可介导声学性状对环境压力的快速、可逆调整。与此同时,生物记录技术可同步获取 GPS、加速度、磁定向与声音数据,使研究者能够重建自由活动动物的感觉—运动回路,解析发声与运动、生境利用及社会互动之间的联系,尤其在海洋物种研究中具有变革性意义。神经生理学(neurophysiology)则进一步提供机制层面的解释,将声信号与感知、决策相关的神经过程相连接。功能神经影像可帮助揭示听觉皮层如何动态重塑声学输入,以及噪声或生境变化如何影响神经回路重组、叫声辨别与发声学习。作者认为,这种跨学科融合正推动生物声学走向机制化与预测性框架,使研究人员得以预判行为和进化对环境变化的响应。
Toward predictive and policy-relevant bioacoustics
文章进一步提出,实时监测网络已开始从实验性工具转向保护实践基础设施。通过边缘 AI 本地处理与快速预警,这些系统能够在数分钟内识别枪声、链锯声或濒危物种叫声,从而支持巡护与执法。其下一步是扩展为全球生物多样性观测站,并通过标准化协议和开放数据库形成持续更新的“生物多样性仪表板”,实时追踪物种分布、迁徙时序与群落更替。若再与气候模型和土地利用预测耦合,这些系统将逐步演化为决策支持平台,用于及早识别种群崩溃或分布区转移风险。作者还提出更具雄心的方向:构建整个声学群落的计算复制体,即数字孪生(digital twins)式模拟系统,用于预测不同噪声水平、群体规模或管理情景下通信网络如何变化。其意义在于使保护从被动响应转向主动预测。
Ethical, data-sharing, and societal issues
在伦理、数据共享与社会层面,文章提醒人们注意生物声学监测形成的“行星级声音记忆”所带来的治理挑战。海量数据使传统“下载—分析”工作流失效,推动算法向数据迁移、云端沙箱、压缩存储与标准化元数据体系的发展。公民科学进一步增加了数据权属与利益分配的复杂性,志愿者往往希望在开放共享之外获得透明政策、适当署名或一定控制权。作者还指出,可重复性仍是领域薄弱环节,开放存储原始录音、遵循 FAIR 与 TRUST 原则、详细报告协议和开放工作流,被视为提升科学可靠性的关键。更广泛地看,全球声学共享资源库的构想需要在开放获取、防止滥用和保障生物多样性丰富地区公平参与之间取得平衡。文章特别警示“数据殖民主义”风险,强调应通过与本地伙伴共同设计项目、开展能力建设和强化原地产权管理来避免不平等提取。同时,全天候录音也构成对人类与动物的潜在声学监控,因此部署 ARUs 前应进行必要性与比例性评估,并逐步建立类似遗传资源治理的“声学权利”框架。
Conclusions: listening forward
结论部分认为,生物声学已证明生态系统并非沉默背景,而是充满声音、节律与互动的动态声景。未来十年的核心任务不再只是探测这些声音,而是解释其含义、理解其生态意义,并将其转化为行动。作者展望,生物声学生态机器学习将从回答“谁在发声”逐步迈向揭示“它们在说什么、为何重要、以及明天可能说什么”。如果可解释模型、无监督发现和环境数据驱动的预测框架能够有效整合,研究者与管理者便可借助行星尺度聆听网络、数字孪生生态系统和实时仪表板,更早识别森林或珊瑚礁衰退迹象,使保护工作由反应式转向预测式。与此同时,领域发展必须伴随审慎伦理,包括公平的数据治理、社区参与以及对物种声学遗产的尊重。总体而言,本文将生物声学描绘为一门正迈向预测性、整合性与政策相关性的前沿科学。