深度学习模型在相机陷阱图像生态分析中的稳健性评估:训练数据质量与数量对关键生态指标的影响

《Remote Sensing in Ecology and Conservation》:Deep learning-based ecological analysis of camera trap images is impacted by training data quality and quantity

【字体: 时间:2026年01月13日 来源:Remote Sensing in Ecology and Conservation 4.3

编辑推荐:

  本文深入探讨了基于深度学习(DL)的物种分类模型在相机陷阱图像分析中的应用,重点评估了训练数据质量(如标签噪声)和数量对下游关键生态指标(如物种丰富度、占据度(Occupancy)和活动模式)准确性的影响。研究通过对非洲稀树草原和亚洲亚热带干燥森林两个生态系统的数据进行分析,发现社区级生态指标对模型架构选择和适度数据缺陷具有较强稳健性,但物种特异性指标(尤其对稀有或形态相似物种)则更为敏感。研究为生态学家在资源有限情况下优化深度学习工作流程提供了重要实践指导,强调应优先确保训练集质量并处理类别不平衡问题。

  
摘要
基于相机陷阱的大规模图像集为物种丰富度、占据度和活动模式提供了宝贵见解,极大助力生物多样性监测。然而,这些数据的手动处理耗时费力,阻碍了分析进程。为此,深度神经网络被广泛用于自动化图像标记,但分类误差对关键生态指标的影响尚不明确。本研究分析了来自非洲稀树草原和亚洲亚热带干燥森林的相机陷阱数据,比较了由专家生成的物种识别结果与深度学习分类模型生成的生态指标。研究特别评估了深度学习模型架构、训练数据中标签噪声的比例以及训练数据集大小对三个关键生态指标的影响。研究发现,从深度神经网络得出的物种丰富度预测与专家标签计算的结果高度匹配,并且对训练数据集中高达10%的噪声以及训练数据集大小减少50%的情况保持稳健。深度学习模型架构或深度的选择对预测的生态指标没有影响。相比之下,物种特异性指标更为敏感;不常见和视觉上相似的物种受到深度神经网络准确性降低的影响尤为严重,这对占据度和昼夜活动模式的估计产生了影响。为确保研究结果的可靠性,实践者应优先创建大型、洁净的训练集,并解决物种间的类别不平衡问题,而非探索众多的深度学习模型架构。
引言
为追踪实现保护目标的进展,全球范围内迫切需要加强生物多样性监测工作。被动生物多样性监测传感器(如相机陷阱、声学监测设备和卫星影像)的使用,使研究人员能够以更低的野外成本和最小的环境干扰,在时间和空间上扩展生态调查。特别是相机陷阱的使用,有益于监测中大型陆生动物(主要是哺乳动物)。这些自主的、运动触发的相机可用于收集各种生态指标,如占据度、丰度和活动水平,这些指标可用于研究野生动物、环境与人类活动之间的复杂相互作用,并监测保护干预措施的成功与否。然而,相机陷阱调查的一个主要限制是数据处理瓶颈,因为数百万张图像需要标记。这一瓶颈导致将相机陷阱图像转化为可用于保护工作的信息出现严重延迟。
机器学习可以提高相机陷阱分析的效率,并加速生态信息的提取。深度神经网络已应用于相机陷阱和其他图像数据,以处理野生动物监测任务,如定位和识别物种、计数个体、分类行为和估计占据度。通用动物检测器的创建通过过滤空图像显著提高了效率,大大减少了需要标记的图像数量。尽管越来越多的生态项目利用深度神经网络进行图像分类,但评估通常通过诸如总体或物种级分类准确性等指标进行。然而,深度学习模型的分类准确性与下游生态指标的准确性是否相关,仍有待检验。
有证据表明,使用深度神经网络获得的生态信息与专家标记的数据生成的信息具有可比性。然而,该数据集聚焦于中非的四个物种,因此研究结果在空间和分类学上的普适性尚不明确。开发用于物种分类的深度学习模型的实践者必须就分类模型和训练数据集做出一系列决策,这些决策通常受到有限的计算资源、图像注释时间或审查现有标签能力的限制。因此,尽管已知具有更多参数的更深架构的模型、大型训练数据集以及训练数据集中低比例的噪声有利于深度神经网络的分类准确性,但这些因素对下游生态指标的影响尚不清楚。
本研究分析了来自两个生态系统(肯尼亚马赛马拉的非洲稀树草原和尼泊尔特莱地区的亚洲亚热带干燥森林)的相机陷阱数据,比较了由专家生成的图像标签与训练好的深度神经网络生成的生态指标。研究特别评估了神经网络模型架构和深度、训练数据集大小以及训练数据集中噪声比例对产生三个关键生态指标的影响。预计随着这些操作降低分类准确性,所产生的生态指标将与专家标记数据产生的指标偏差更大。预计物种丰富度和占据度可能具有一定的稳健性,因为这些指标每次调查只需一次阳性检测即可贡献于该指标。然而,由于底层检测的高时间分辨率,活动模式可能受到模型准确性降低的更强影响。
方法
相机陷阱数据
研究从两个生态系统收集相机陷阱数据:非洲稀树草原和亚热带干燥森林。每个野外地点都设置了相同的调查设计。在每个地点,无诱饵的相机被均匀部署在2 km2的网格单元中。
  • 马赛马拉相机陷阱:数据来自肯尼亚西南部马赛马拉四个保护区内部署的176个相机陷阱。数据收集于2018年10月和11月,包含47个物种或物种组的图像。
  • 巴尔迪亚相机陷阱:148个相机部署在尼泊尔西南部三个不同土地管理制度下的连续区域。数据收集于2019年2月13日至4月16日。
  • 数据标记:使用视觉对象标记工具对两个数据集中的图像进行物种识别标记。标记后,对每个物种随机抽取10%的图像检查标记准确性。为进行深度学习训练,每个数据集的标记图像被划分为用于模型训练、验证和测试的子集。最终生态分析中,对测试数据集中每个物种的专家标签数量设定了最低阈值(20个),并剔除了家养物种、鸟类以及包含视觉相似物种组合的物种组。
生态分析
  • 物种丰富度:测量为在整个调查期间每个相机陷阱位置观察到的野生物种数量。
  • 占据度:采用多物种占据度框架来估计占据度,同时考虑不完美检测。针对两个研究区域的差异,为MMCT和BCT数据集实施了略有不同的占据度模型。研究调查了根据模型结果对占据度有强烈影响的变量的效应。
  • 活动模式:通过拟合圆形核密度函数来估计每个物种的昼夜活动模式。仅将具有≥20次检测的物种纳入分析。通过计算两个活动模式的 bootstrap 重叠系数来比较专家标记数据和深度学习预测数据的活动模式。
深度神经网络实验
为研究深度神经网络对下游生态指标的影响,进行了三项实验,每项实验操纵训练流程的不同方面:改变底层模型架构、改变训练集大小、改变数据集中噪声(错误标签)的比例。除模型架构实验外,每个实验使用的基线模型是ResNet50 CNN。所有实验深度神经网络模型均来自PyTorch库。在所有实验中利用了在ImageNet上预训练获得的权重进行迁移学习。模型训练是在每个动物图像的裁剪图上进行的。
  • 分类模型的影响:比较了四种模型类型:三种不同深度的ResNet模型和一种ConvNeXt-T模型。
  • 训练集标签噪声的影响:为每个训练集创建了六个版本,标签错误水平从1%到50%不等。
  • 训练集大小的影响:为每个数据集创建了七个版本的训练集,其中每个物种的标签数量从原始训练集的100%变化到1%。
机器学习评估与生态指标之间的相关性
为描述深度神经网络准确性与生态指标准确性之间的关系,测量了分类误差与生态准确性之间的相关性。为量化“生态准确性”,计算了从专家生成标签和深度神经网络生成标签测得的物种水平占据度系数估计值之间的绝对差。对于活动模式,使用1减去物种水平重叠值。为量化分类误差,使用了四个常用指标的错误率。
结果
物种丰富度
研究发现,从深度学习生成标签预测的物种丰富度对不同模型架构和深度具有稳健性,但受到训练数据中高噪声水平和训练集大小减少的影响,特别是在相对较小的BCT数据集中。
占据度建模
占据度建模结果表明,即使训练集受到高度操纵,从深度神经网络预测的物种标签也能恢复一些物种对环境协变量的特异性响应。然而,不常见和视觉相似物种的响应未能被一致地恢复。
活动模式
所有四种深度学习模型的预测产生的活动模式重叠范围与专家标记数据相似,大多数物种的重叠系数在0.8到1之间。
机器学习评估与生态指标之间的相关性
分类准确性随着操纵的增加而降低,但发现从深度神经网络生成标签得出的生态指标准确性并不总是与深度神经网络的性能直接相关。
讨论
研究表明,深度神经网络物种分类器可以以合理的准确性估计生态指标,特别是对于像物种丰富度这样的群落水平测量。然而,对于稀有或视觉相似物种的估计可靠性较差。利用两个来自不同生物群系的相机陷阱数据集增加了研究结果的普适性。
  • 深度神经网络实验:研究发现图像分类模型架构或模型深度的选择对最终生态结果影响甚微。训练集中高达10%的噪声下,大多数生态指标仍与专家标记数据保持高度相似。训练集大小减少50%的情况下,关键生态指标的准确性通常仍能保持。然而,观察到分类误差对不常见物种的影响尤为严重,导致某些物种的响应被完全忽略或产生虚假信号。
  • 常规神经网络评估与生态指标之间的相关性:基于深度学习的生态分析准确性并不总是与常规机器学习评估指标强相关,但这随模型操纵和生态指标而异。分类误差对活动模式准确性的影响更大。
结论
本研究对在不同设置下训练的深度学习模型进行了端到端的评估,评估基于与下游生态任务相关的指标。研究结果明确了此类模型针对深度学习模型训练典型决策的稳健性,并指出了需要谨慎对待的领域。最终,研究结果旨在帮助资源有限的实践者构建有效的保护工具。该领域的未来研究应侧重于增强可及性,确保深度学习工具能够被全球保护界广泛采纳和应用。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号