《Ecological Informatics》:Detecting labeling errors in bioacoustics through dimensionality reduction and clustering techniques
在当前的生物声学研究中,人工智能技术的进步为分析音频记录中的物种存在情况提供了新的可能性。这些计算模型能够利用被动声学监测(PAM)所生成的大量数据,对物种进行识别和分类。然而,这些算法的训练和性能评估高度依赖于准确标注的边界框(bounding boxes),而标注动物声音在这些记录中是一项既复杂又耗时的任务,即使由专家执行,也常常会出现误差。
为了解决这一问题,本文提出了一种新的方法,通过整合统计分析、降维和层次聚类技术,来识别生物声学数据集中的潜在标注错误。该方法能够标记出那些在声学特征上与同类标注存在显著差异的孤立观测段,从而帮助专家更高效地进行审查,减少错误标注的传播风险。这种方法在三种不同物种多样性、记录条件和标注方式的生物声学数据集中进行了验证,平均标记出10%的可能错误标注,其中高达73%的标注被专家确认为错误。结果显示,该方法在不同数据集中具有良好的适应性,显著提高了手动和半自动标注记录的标注准确性。进一步测试表明,在移除被标记的错误标注后,假阳性率降至1%,准确率超过95%,F1值超过81%,突显了该方法在受控条件下的鲁棒性。
这种方法不仅提高了标注的准确性,还支持了更可靠的机器学习模型训练数据集,从而有助于更好的物种监测和保护策略。其广泛适用性使其成为提升生物声学研究质量的有前景工具,确保生态分析的稳健性。
### 1. 引言
被动声学监测(PAM)捕获了多样化的环境声音,这些声音对于解决关键的生物多样性问题至关重要。这些声音可以利用生态声学指标进行分析,或者通过识别特定的声音,如物种的鸣叫(
Gibb et al., 2019,
Turlington et al., 2024)。在后一种方法中,专家基于对物种的了解来标注鸣叫,为训练和评估计算生物声学模型提供了关键的输入(
Linke and Deretic, 2020,
Toledo et al., 2015)。然而,标注错误常常发生,原因包括噪声干扰、声学相似性、疲劳或音频重叠(
Oswald et al., 2022b)。这些错误会影响计算生物声学模型的训练和评估(
Michaud et al., 2023)。在训练数据集中,错误可能影响学习效率和泛化能力。而在评估阶段,它们可能扭曲性能指标,妨碍模型比较,并且在进行错误率修正时会扭曲物种的出现率估计(
Michaud et al., 2023)。尽管深度学习(DL)模型有时能在大规模数据集中容忍高水平的标签噪声(
Rolnick et al., 2018),但生物声学数据集通常规模较小且标注成本较高,因为它们需要专家知识,因此特别容易受到错误标注的不利影响。
如今,借助机器学习(ML)工具,可以进行大规模基于物种的生物声学分析(
Stowell, 2022,
LeBien et al., 2020,
Oswald et al., 2022a)。这些工具已被应用于鸟类、海洋哺乳动物(尤其是齿鲸)和两栖动物等,使研究人员能够在难以到达的区域长期研究物种(
Mutanu et al., 2022,
Stowell et al., 2019,
Frasier, 2021)。然而,这些模型的性能在很大程度上依赖于标注的边界框的质量,因此迫切需要提供方法来确保这些标注的可靠性,以解决可能的标注偏差(
Colligan et al., 2023,
Pijanowski et al., 2024)。
专家的手动标注通常包括标记感兴趣的声学事件的起始和结束时间以及频率范围,这常常通过诸如Raven Pro(
Yang, 2024)或ARBIMON(
Rainforest-Connection, 2023)等工具完成。尽管这种方法确保了高质量的数据,但它需要专业技能、先前知识、大量时间,并且可能导致专家之间的不一致(
Gil-González et al., 2021)。因此,尽管手动标注被认为是生物声学中的黄金标准,专家有时也会对标注的准确性感到不确定。在这种情况下,自动化方法可以提供有价值的指导,通过识别那些手动难以检测的异常情况,特别是在必须分析大量段落的场景中。
作为手动标注这一耗时且技能密集型过程的替代方案,越来越多的研究关注于开发减少人工干预的标注技术,这些技术基于声学事件检测(AED)方法。一些作者提出了监督和半自动标注方法,结合自动分段与随后的手动标注阶段(
Colligan et al., 2023,
Fukuzawa et al., 2020,
Steinfath et al., 2021)。一种更精细的技术使用了带有完全无监督分类的标注函数(
Michaud et al., 2023)。另一种技术涉及将Raven中的手动标注选择表与Koogu Python库集成(
Madhusudhana, 2023),从而能够训练卷积神经网络(CNN)以生成更多的标注(
Guerrero et al., 2024)。尽管这些方法在减少人工干预方面具有前景,但生成的标注通常仍然需要人工验证,这仍然是一个耗时的过程。
### 2. 材料与方法
#### 2.1. 声学数据集
我们使用了三个来自两个公开声学数据库的子集来评估我们的方法(参见数据可用性)。表1总结了这些数据库,详细列出了它们的位置、音频文件数量和记录条件。这些子集是基于强标注的可用性创建的:子集A和子集B是由专家手动标注的。子集C则是根据
Guerrero et al. (2024)的方法生成的。我们评估了我们的方法在检测潜在错误标注方面的有效性,考虑了不同物种、地点和记录设备之间的类内变异性。表2提供了每个物种的标注段数量及其分类信息,包括标注的鸣叫数量和平均持续时间。
**表1**
**声学数据库的摘要**
| 数据集名称 | 子集 | 位置 | 数据分钟数 | 记录器类型 | 采样率 | 记录计划 |
|------------|------|------|------------|------------|--------|-----------|
| Puerto Wilches Audible | A, C | Puerto Wilches, Santander, Colombia | 2,638 | Song Meter Mini | 48 kHz | 每10分钟记录1分钟 |
| Jaguas 2012–2013 | B | Jaguas 水电站, Antioquia, Colombia | 50 | SM2 | 44.1 kHz | 每10分钟记录1分钟 |
**表2**
**各子集中物种标注段的数量和持续时间**
| 物种 | 分类 | 子集A(66分钟) | 子集B(9分钟) | 子集C(123分钟) |
|------|------|------------------|----------------|------------------|
| Alouatta sp | 灵长类 | 9 (1.47 ± 0.53) | - | 21 (3.75 ± 1.30) |
| Leptodactylus fuscus | 青蛙 | 664 (0.25 ± 0.12) | - | 305 (2.21 ± 0.47) |
| Boana platanera | 青蛙 | 264 (0.24 ± 0.11) | - | 349 (2.36 ± 0.7) |
| Dendropsophus microcephalus | 青蛙 | 144 (0.39 ± 0.33) | - | 112 (2.6 ± 1.12) |
| Leptodactylus fragilis | 青蛙 | 61 (0.25 ± 0.11) | - | 325 (2.25 ± 0.46) |
| Hyloxalus sp | 青蛙 | - | 157 (0.28 ± 0.07) | - |
| Diasporus gularis | 青蛙 | - | 30 (0.35 ± 0.06) | - |
| Nyctidromus albicollis | 鸟类 | 152 (0.48 ± 0.25) | - | - |
| Troglodytes aedon | 鸟类 | 36 (1.68 ± 0.78) | - | 29 (2.01 ± 0.07) |
| Patagioenas cayennensis | 鸟类 | 35 (0.54 ± 0.31) | - | 165 (2.6 ± 1.26) |
| Crotophaga ani | 鸟类 | 33 (0.63 ± 0.5) | - | - |
| Crypturellus soui | 鸟类 | 32 (1.39 ± 0.68) | - | - |
| Amazona amazonica | 鸟类 | 11 (0.55 ± 0.36) | - | - |
| Dendroplex picus | 鸟类 | 10 (1.88 ± 1.13) | - | 76 (2.25 ± 0.46) |
| Pitangus sulphuratus | 鸟类 | 7 (0.92 ± 1.25) | - | - |
| Ortalis ruficauda | 鸟类 | 7 (1.91 ± 1.42) | - | - |
| Basileuterus sp | 鸟类 | - | 12 (1.38 ± 0.41) | - |
| Leptopogon superciliaris | 鸟类 | - | 11 (0.61 ± 0.19) | - |
| Bird song 1 | 鸟类 | - | 10 (1.41 ± 0.68) | - |
| Coereba flaveola | 鸟类 | - | 9 (1.3 ± 0.48) | - |
| Saltator maximus | 鸟类 | - | 7 (0.44 ± 0.1) | - |
| Henicorhina leucosticta | 鸟类 | - | 6 (0.44 ± 0.07) | - |
这些数据集涵盖了多个物种,不同的记录方案和多种地理区域。这些因素,加上对专家原始选择表的直接访问,使得它们适合于评估标注的一致性并检验我们方法的适用性。此外,它们的公开可用性支持未来类似方法的基准测试。
#### 2.2. 提出的方法
为了检测生物声学数据集中的潜在错误标注,我们提出了基于统计方法和降维的方法。该方法包括三个阶段:特征提取、降维和标注检测。输入是来自多个物种的强标注段落,无论是手动还是自动生成的。
**图1**
**提出的方法,用于识别生物声学观测数据集中的潜在标注。**
该方法将原始标注段落(红色)分为准确标注(蓝色)或孤立观测(绿色)。过程从使用专家或自动模型生成的标注段落的特征提取开始。特征经过冗余去除后,那些个体Kaiser-Meyer-Olkin(KMO)值低于0.4的特征被丢弃。随后,进行因子分析以进一步降维,生成可解释的潜在变量。最后,应用层次聚类,并计算具有相同标签的段落之间的距离。标记为孤立观测的段落优先供专家审查,以确定是否应丢弃、修改或保留用于进一步分析。
#### 2.2.1. 特征提取
该方法的输入是一组强标注的段落,通常称为观测。每个段落代表一个连续的声学事件,由其时间和频谱边界定义:起始时间、结束时间、最低频率和最高频率。段落级别的特征提取是计算生物声学的标准程序,因为这些局部事件是特征计算和物种分类的基本单位。这可以通过使用卷积神经网络(CNN)的光谱图或通过创建矩阵以推导声学特征(如梅尔倒谱系数)来实现。这些段落是从音频文件的短时傅里叶变换(STFT)生成的光谱图中提取的。光谱图使用了1024个样本的汉恩分析窗口,512个样本的步长,以及2048个样本的FFT大小。这种设置对应于48 kHz下的21.3ms/10.7 ms,以及44.1 kHz下的23.2ms/11.6 ms,频率-bin分辨率为23.4 Hz和21.5 Hz。
在本研究中,我们实现了一种声学事件检测(AED)算法,该算法最初由
Xie et al. (2017)提出,并由
Guerrero et al. (2023)进行了调整。该算法用于生成所有频率带的初始声学事件分割,而不进行物种标注。这些候选段落随后由专家进行验证和标注。该过程包括四个主要步骤:(i)高斯滤波以平滑粗糙度并减少事件内部的小间隙;(ii)频谱减法以降低广泛的背景噪声;(iii)Otsu阈值(
Otsu, 1979)用于将去噪后的光谱图转换为二进制掩码,将信号与背景分离;以及(iv)事件大小过滤以丢弃虚假的小块并分割不现实的大连接区域。
我们的调整与原始的青蛙特定实现不同,它保留了完整的频率范围,而不是仅保留300–5000 Hz内的事件。这允许进行多物种分割。然而,我们的方法是灵活的,可以整合其他分割技术以满足特定需求。生成的段落存储在矩阵中,其中每一行代表一个检测到的事件的起始时间、结束时间、最低频率和最高频率。
#### 2.2.2. 冗余去除
这一阶段首先通过标准化特征来确保数据的一致性,消除尺度和幅度的影响。对于每个特征,计算数据点的标准化值,其中涉及的特征被标准化。接下来,去除冗余或无关的特征。为此,使用非参数Spearman方法计算变量之间的相关性,因为数据的分布是非正态的。相关性高的特征(
i.e.相关系数
ρ大于0.85)被识别并从分析中移除,因为它们具有较高的冗余可能性。
在剩余的标准化特征中,我们计算并可视化相关性网络。这个网络揭示了特征之间的关系强度,用节点表示。两个节点之间的厚线表示这两个变量之间有显著的相关性。如果显著关系被视觉识别,我们应用因子分析来降维,这有助于检测重要模式并简化数据解释。然后进行Bartlett检验,以确定相关性矩阵是否显著不同于单位矩阵,从而为因子分析的实施提供初步的统计支持。
Kaiser-Meyer-Olkin(KMO)检验用于评估特征适合因子分析的程度(
Kaiser, 1974)。首先计算总体KMO值,然后移除那些个体KMO值低于0.4的特征。总体KMO值接近1表明数据适合因子分析,而总体值低于0.5则表明数据可能不适合此方法(
Kaiser, 1974)。每次移除后,重新计算总体KMO值,直到所有剩余特征的个体KMO值都高于阈值。这种方法确保了只有相关的特征被保留用于因子分析。虽然去除这些特征对于聚焦于良好表示的数据至关重要,但它们可能在模型设计的后期阶段被考虑使用。
#### 2.2.3. 使用因子分析进行降维
为了减少高维空间中的维度诅咒(curse of dimensionality)并获得可解释的潜在变量,我们应用了带有Varimax旋转方法的因子分析(
Thurstone, 1931)。该分析是在KMO分析后保留的特征上进行的,以提取最终的因子。这种方法的选择优于其他方法,如主成分分析(PCA),因为它允许每个因子与特定的声学特征有清晰的关联。
对于每个特征,计算其共性(communalities),以评估其被提取因子解释的协方差比例。因子载荷矩阵
L 通过因子分析获得,其维度为
Nf ×
Nc,其中
Nc 是最终因子的数量。对于每个特征(行),从
L 中提取最高的绝对载荷值,并存储在新的矩阵
T 中,该矩阵具有相同的维度
Nf ×
Nc。该矩阵仅保留每个特征的最大绝对值,将其他值设为零,从而简化每个特征对其最强因子的贡献。随后,构建潜在变量矩阵
V,其代表每个段落的潜在变量,通过将
Y 与
T 相乘获得(
V = YT)。最后,将之前在KMO循环中排除的非线性声谱系数特征重新引入潜在变量矩阵
V,以保留未被因子捕获的信息。
#### 2.2.4. 潜在观测的检测
潜在变量
V 通过减去均值并除以标准差进行标准化。一旦标准化,就使用 Ward 的最小方差方法进行层次聚类分析,以及欧几里得距离作为距离度量(
Szekely and Rizzo, 2005,
Hair et al., 2010)。通常,这种方法旨在通过逐步合并较小的组别来构建一个聚类的层次结构。然而,我们的主要目标是识别在聚类树中孤立的观测。虽然存在其他检测异常情况的技术,如 T-clust(
García-Escudero et al., 2008)、聚类中的噪声检测(
Dave, 1991)或潜在空间中的最近邻一致性(
Brodley and Friedl, 1999),但这些方法被认为不太适合我们的任务。许多替代方法需要参数调整(
e.g.,设定固定的聚类数量),并且它们没有利用现有的标签进行异常检测。因此,我们选择了层次聚类,因为它提供了一种直观、无需参数的方法来构建数据结构。这种方法还允许在视觉上可解释的聚类树结构中直接识别孤立的观测。
为了实现这一点,我们开发了一种算法,计算具有相同标签的观测之间的相对分离度。一旦聚类树构建完成,算法根据叶子顺序对观测进行排序。然后,算法检查这些排序结构中每个观测的直接邻居,以确定它是否被分配给不同物种的段落包围。如果不同标签包围一个观测,它将被标记为一个“
孤立观测”。对于边缘情况(
i.e.,第一个或最后一个叶子),只考虑一个邻居。
对于每个孤立观测,算法识别出在聚类树排序中与相同标签的最近观测。观测之间的距离通过计算具有不同标签的间隔叶子数量来衡量。这种方法提供了一个简单启发式,而不是一个新的聚类度量。它有效地捕捉了观测在异质局部环境中的嵌入深度:间隔叶子越多,标签在关系中的异常性越明显。
接下来,计算孤立观测的百分比,基于数据集中的总观测数。这个百分比作为主要的总结统计量,而距离值则通过根据隔离程度对观测进行排序提供额外的见解。这些输出识别出潜在的错误标注段落,并帮助专家优先审查最异常的观测。图1展示了这一过程,总结了层次聚类、检测逻辑以及孤立段落和准确标注段落之间的视觉区分。
为了确保可追溯性,算法追踪每个孤立观测的原始索引、物种标签、相同标签的最近观测索引以及计算的距离。这些信息以Raven的选择表格式导出,仅突出显示与相同标签的其他段落的统计模式不符的段落。这使得专家能够专注于审查潜在错误分配的观测,显著减少了手动验证所需的时间和精力,同时确保了标注的正确性。
我们进行了距离分布的统计评估,使用非参数的Kruskal–Wallis检验(
Kruskal and Wallis, 1952)。当检测到显著的全局效应时,我们使用Dunn检验和Bonferroni校正(
Bonferroni, 1936)进行事后成对比较,以控制多重比较。这些分析使我们能够确定错误标注的段落、假阳性或其他类型的错误在聚类树中的隔离程度是否显示出不同的模式。
#### 2.3. 伪清理和人工修改的子集
为了评估所提出方法的鲁棒性,我们从每个测试子集中创建了伪清理子集(以下简称
PC-subsets)。首先,我们移除了所有被算法标记为孤立的观测,以生成一个被认为没有标注错误的版本。我们保留了原始子集的相同潜在变量矩阵
V,以确保层次结构保持一致,但不考虑孤立观测的影响。这些
PC-subsets 作为基准,用于在无明显异常的条件下评估算法的性能。
为了模拟标注错误,我们创建了人工修改的
PC-subsets(以下简称
AM-subsets),通过在每个
PC-subset 中随机修改10%的剩余观测的标签。这种采样在整个子集中进行,不按物种进行分层,以避免引入人工比例偏差。仅对所选观测的物种标签进行修改;每个选定的标签被替换为同一子集中其他现有物种的随机标签(
表2)。段落的时间边界和其他特征保持不变。这一过程生成了包含清洁和修改标签的
AM-subsets,使我们能够评估算法在受控条件下的识别错误的能力。这种方法有助于避免使用固定真实子集带来的偏差,并使算法鲁棒性的评估更加通用。我们对每个子集重复了这一修改和评估过程,并报告了所有指标的平均值和标准差。
#### 2.4. 证明原理分类实验
为了评估提高标注质量是否能带来更好的下游分类,我们进行了一个证明原理实验,使用支持向量机(SVM)。我们首先从原始子集中移除了那些具有非常少标注段的物种,因为这些类别提供的示例不足以训练一个可靠的模型。然后,我们标准化了从第2.2.1节描述的声学特征,使其均值为零,方差为一。随后,使用scikit-learn中的径向基函数(RBF)核训练SVM分类器,并通过网格搜索和5折交叉验证优化超参数(正则化参数
C 和核宽度
γ)。最后,我们比较了原始子集和
PC-subsets 版本在F1分数和准确率方面的性能。
### 3. 结果
#### 3.1. 降维
我们首先评估了子集A的特征提取、冗余去除和降维阶段。从每个段落的光谱图中提取了33个特征(参见第2.2.1节)。在冗余去除后,
DeltaFreq、
End、
SpectralCentroid、
Fdom、
FCC8 和
FCC12 被排除。剩余的倒谱系数被保留并用于后续分析。Bartlett检验确认了相关性矩阵与单位矩阵的显著差异(
χ2 = 32,484,
p < 0.001),表明特征之间存在显著的协方差,从而证明了因子分析的应用。然后,在KMO循环中,
Bandwidth 和
FminVoc 被排除在因子分析之外,最终的KMO值为0.57。最后,通过因子分析获得三个因子,同时排除了四个具有低共性的特征。我们选择了一个0.3的共性阈值,这是因子分析中常用的标准,如
Hair et al. (2010)所推荐。为了保留未被因子捕获的信息,
Bandwidth 和
FminVoc 被重新引入潜在变量,如图3所示。总之,在冗余去除和因子分析过程中,共移除了10个特征,并获得了五个潜在变量。
**图3**
**子集A的潜在变量。**
矩阵
L 包含特征去除和最终因子分析后的权重。矩阵
T 仅保留每个特征的最大权重,其余值设为零。这些保留的权重用于计算矩阵
V 的前三个潜在变量,非冗余特征(
Bandwidth 和
FminVoc)作为独立的潜在变量(V4和V5)。
#### 3.2. 需要审查的观测
将整体方法应用于原始子集A,识别出1,465个观测中有172个可能需要专家审查,占总数的11.7%。图4(a)展示了这些孤立观测的组成,按子集中存在的物种划分。算法随后计算了每个孤立观测与具有相同标签的最近观测之间的距离,如第2.2.4节所述(参见补充信息中的完整聚类树图)。图4(b)展示了所有检测到的孤立观测的距离分布,按物种分组,每种物种的两个最远异常值以红色突出显示。
**图4**
**(a) 子集A的孤立观测百分比,显示了整个子集(左面板)和按物种分组的观测组成。值得注意的是,
Pitangus sulphuratus 有100%的孤立观测,这可能是由于样本量只有7个观测。 (b) 子集A中每个孤立观测到相同标签的最近观测的距离分布,显示为总体分布(左面板)和按物种分组的分布(右面板)。每个彩色点代表一个可能需要标注审查的观测,距离在
y 轴上表示其隔离程度。较高的距离表明更需要审查。每种物种的两个最远异常值以红色突出显示。**
在视觉检查孤立观测后,我们识别出126个正确检测(真阳性),这意味着算法成功标记了存在标注问题的段落(
e.g.,错误边界、低强度、重叠或错误标签),以及46个错误检测(假阳性),得到73.3%的精确度。为了更好地理解为什么算法标记了特定观测,专家根据视觉和听觉分析将每个观测分类为四个定性组。在126个正确识别的挑战性训练示例中,64个被分类为错误分割(要么太短,要么包含其他物种的信号);26个显示较低强度,与正确标注的段落相比;20个与其他鸣叫重叠;16个被误标。特别地,一个假阳性与
Pitangus sulphuratus 相关,因为专家没有识别到类似的鸣叫。图5展示了四种观察到的错误类型的示例。
**图5**
**子集A中孤立观测的视觉检查。 (a) 可能被错误标记为
Nyctidromus albicollis。 (b)
Amazona amazonica 的错误分割鸣叫。 (c) 被标记为
Crypturellus soui 的低强度段落。 (d)
Boana platanera 和另一种物种在时间和频率上的重叠。 (e) 可能的假阳性,标记为
Dendroplex picus 的段落。为了增强可视化,每个面板的轴进行了不同比例的缩放,以突出显示相关的鸣叫边界。**
为了调查某些错误类型是否与潜在变量中的更大差异相关,我们分析了子集A中172个孤立观测的距离,按其分配的错误类型进行分组。Kruskal–Wallis检验揭示了错误类别之间距离分布的显著差异(
H = 9.94,
p = 0.0415)。使用Dunn检验和Bonferroni校正的成对比较表明,误标段落的距离显著高于被识别为假阳性的段落(
p = 0.0398)。其他成对比较没有统计显著性。
#### 3.3. 子集B和C
子集B和C用于验证该方法在不同环境中的表现,包括不同的硬件和标注方法。子集B用于评估该方法在使用不同硬件和由不同专家标注的数据上的性能。子集C则没有被专家标注,而是来自监督分类器的推理,使我们能够检查该方法是否能支持清理机器生成的标注。
在对子集B和C应用降维后,移除的特征和潜在变量与子集A的结果不同。表3总结了对验证子集应用该方法后的降维结果。
**表3**
**对子集B和C应用该方法时移除的特征。**
| 过程 | 子集B的特征 | 子集C的特征 |
|------|-------------|-------------|
| 冗余 | DeltaFreq, End, FCC(8,12) | DeltaFreq, FminVoc, Fdom, FCC(5-15) |
| KMO循环 | Start, Spectral flatness, FCC(3,7,10,11,15,17,21-23) | Spectral flatness, FCC(3,16-19,21-23) |
| 低共性 | FCC(6,16,19,20) | Start, Length, FCC20 |
| 降维后重新引入的特征 | Start, Spectral flatness | Spectral flatness |
将整体方法应用于子集B和子集C以检测孤立观测(参见补充信息中的完整聚类树图)。子集B最初有329个观测,其中39个(11.85%)被标记为孤立。在分析这些孤立观测后,我们识别出26个真阳性,13个假阳性,达到66.7%的精确度。误标注的主要原因包括不良分割(14个案例)、与其他鸣叫在时间和频率上的重叠(7个案例)以及明显的标注错误(5个观测)。
在子集C中,最初有1,382个观测,其中121个被标记为孤立(8.76%)。然而,在检查这些孤立观测时,我们注意到分类过程中存在大量误标注错误,这些错误可能使算法在检测孤立观测时混淆,因为它依赖于识别相似标签之间的差异。当众多观测包含标注错误时,算法可能将这些错误解释为相似标签,而不是孤立观测。尽管如此,我们仍然进行了检查,以识别孤立观测检测的潜在原因,并发现了58.7%的精确度,其中50个假阳性,71个真阳性,主要由于重叠(29个观测)、不良分割(18个案例)、仅噪声段(14个观测)和低强度段落(10个观测)。图6展示了子集B和C中正确和错误分类的示例。
**图6**
**验证期间在子集B(专家标注)和子集C(自动标注)中评估的观测,红色边界框表示被标记的案例。 (a) 在子集B中,obs.18和19被正确标记为
Leptopogon superciliaris 和
Hyloxalus(真负)。 obs. 36、37和40也被正确标记为
Hyloxalus。 obs. 39被误标为
Hyloxalus,并被我们的方法标记为审查(真阳性)。 obs. 119显示了AED算法的分割错误:被标记为
Leptopogon superciliaris,但还包含
Hyloxalus 的鸣叫,并被正确标记(真阳性)。 (b) 在子集C中,Koogu自动标记了几个段落为
Dendroplex picus。 obs. 384未被我们的方法标记(真负)。 obs. 385–386包含重叠的
Crypturellus soui 鸣叫,并被正确标记为审查(真阳性)。 obs. 388被误标为
Dendroplex picus