《Science of The Total Environment》:AI and computer vision for wildlife identification in camera trap images: Fine-tuning SpeciesNet outperforms local models for species classification
编辑推荐:
野生动物相机陷阱生成数百万张图像,超出人工处理能力。计算机视觉(CV)作为人工智能(AI)和机器学习(ML)的分支,帮助生态学家高效处理图像。CV工作流程通常从动物检测(例如使用MegaDetector)开始,然后对于包含动物的图像,将包含动物的裁剪图像(即s
野生动物相机陷阱生成数百万张图像,超出人工处理能力。计算机视觉(CV)作为人工智能(AI)和机器学习(ML)的分支,帮助生态学家高效处理图像。CV工作流程通常从动物检测(例如使用MegaDetector)开始,然后对于包含动物的图像,将包含动物的裁剪图像(即snip)传递给分类器以识别物种。SpeciesNet是一个开源AI/ML分类器,全球识别2498个类别(多数为物种级),因此是一个“全球模型”。然而,SpeciesNet存在显著的地理和分类空白。因此,在SpeciesNet范围之外的区域或物种工作的生态学家可能为其特定地点构建局部分类器。研究人员假设一种混合方法——微调SpeciesNet——能够利用全局特征表示和局部分类专业化(即仅限于研究区域的类别)。在此背景下,研究人员探讨三个问题:(i)全球、局部和微调分类器如何比较?(ii)需要多少训练图像?(iii)在随机分布和分布外测试中性能如何变化?研究人员使用了澳大利亚野生动物观测站(WildObs)的带标签图像库,涵盖“湿热带”雨林(n=454次相机部署,2,184,664张图像,121个物种),并将其精简为15个最常见物种的平衡数据集用于CV建模。研究发现:(i)微调SpeciesNet达到了最高性能,通常超过95%的F1分数;(ii)所有三种方法在每个类别(物种)达到250–500张局部训练图像后性能趋于平稳;(iii)这些优势在分布外测试(即完全未参与任何模型训练的新相机)中尤为明显。研究人员得出结论:微调SpeciesNet调和了广泛适用性与场地特异性精度之间的长期矛盾,加速了图像到推断的工作流程,使结果能在管理相关的时间框架内实现。这些进展推动相机进一步成为野生动物监测、研究和保护的自动化、简便、经济且高效的解决方案。
野生动物相机陷阱技术生成海量图像,远超人工处理能力,形成数据瓶颈。计算机视觉(CV)作为人工智能(AI)和机器学习(ML)的分支,虽能自动化目标检测与物种分类,但现有全球模型如SpeciesNet存在地理与分类覆盖漏洞,尤其对澳大利亚湿热带(AWT)等地方性物种丰富区域表现欠佳;而局部模型需大量本地标注数据且泛化能力有限。为调和广泛适用性与局部精确性的矛盾,研究人员系统比较了全球模型、局部模型和微调SpeciesNet在随机分布(RD)与分布外(OOD)场景下的性能,并探索所需训练图像数量阈值。研究利用WildObs(澳大利亚野生动物观测站)从AWT雨林部署的454台相机获取的2,184,664张图像(121个物种),经MegaDetector检测后裁剪动物区域,平衡选取15个最常见物种(每类≥2200张)构建数据集。关键发现:微调SpeciesNet(SNet-FT-Full)在RD下F1分数达0.964,在OOD下达0.909,均优于局部模型(0.937±0.038和0.839±0.171);训练图像在250–500张/类后性能饱和;微调模型对难分类物种(如小型鸟类、相似有袋类)提升显著,而原始SpeciesNet直接使用(未修剪类别)在OOD下仅0.133的宏F1。研究结论:微调全球模型是高效策略,能加速图像到推断流程,为管理决策提供及时支持。论文发表在《Science of The Total Environment》。
**关键技术方法:** 研究采用MegaDetector进行动物检测,生成裁剪片段(snip);分类器使用EfficientNetV2-M骨干网络。局部模型从ImageNet初始化,在15类上分两阶段训练(冻结骨干后解冻微调)。微调SpeciesNet(SNet-FT-Small与SNet-FT-Full)修剪输出层至15类(9类复用权重,6类新物种随机初始化),重用预训练权重并仅更新高层与分类头。样本队列来自WildObs的AWT数据集(454台相机,平衡后15类每类约2000张图像)。评估分为RD(同相机部署图像随机划分)和OOD(按相机部署划分,测试集完全未见)两种场景,以宏平均精确率、召回率和F1分数为指标。
**随机分布(RD)性能:** 通过比较SNet-FT-Full、SNet-FT-Small和局部模型在RD测试集(训练与测试图像来自相同相机部署)上的表现,发现SNet-FT-Full以宏F1=0.964领先,局部模型为0.937±0.038,SNet-FT-Small为0.934。微调模型在地方性物种如东方刺鸫鹭(Orthonyx spaldingii)、尾斑鼠(Uromys caudimaculatus)和黑尾袋鼠(Wallabia bicolor)上提升显著,而局部模型对视觉独特物种如家牛(Bos taurus)和南方鹤鸵(Casuarius casuarius)保持可比精度。
**分布外(OOD)性能:** 通过评估在完全未参与训练的新相机部署图像上的表现,发现SNet-FT-Full仍以F1=0.909领先,局部模型为0.839±0.171,SNet-FT-Small为0.764。未经微调的SpeciesNet直接通过WildInsight运行(未修剪类别至15类)仅获0.133的宏F1,主要因标签空间不匹配。训练图像数量实验表明,所有模型随每类前20张图像快速提升,在250–500张后达到饱和;SNet-FT-Full在250张/类时已达其最大F1的95%以上。
**讨论与结论:** 微调全球模型优势源于整合全局特征(如体型判别模式)与局部特征(如物种形态),同时移除无关类别并引入新物种。错误主因来自多物种共存图像(如人与狗同行),导致单标签评估下误分类。训练图像阈值(~250张/类)提示研究者无需海量数据,而应聚焦代表性样本。实践上,局部模型适合固定站点,全球模型适合覆盖区域,而微调模型兼顾二者。结论翻译:微调预训练全球模型(SpeciesNet)是一种高效策略,调和了局部与全局方法的权衡,在熟悉和新情境下均优于局部模型且所需训练图像更少。研究人员建议,未来应推广区域预训练基模型,通过轻量微调加速生物多样性监测分类器开发,使全球生态学家能用有限数据与计算资源实现管理相关时间框架内的准确推断。