利用先进的神经网络进行基于图像的识别技术，可以帮助监控 Agrilus 宝石甲虫（一种农业害虫）

《NeoBiota》：Image-based recognition using advanced neural networks can aid surveillance of Agrilus jewel beetles

【字体：大中小】 时间：2026年03月10日 来源：NeoBiota 3

编辑推荐：

　　瓦莱里奥·卡鲁索（Valerio Caruso）|侯赛因·希拉利（Hossein Shirali）|克里斯托夫·布盖（Christophe Bouget）|皮埃尔菲利波·切雷蒂（Pierfilippo Cerretti）|詹弗朗科·库莱蒂（Gianfranco Curletti）

　　瓦莱里奥·卡鲁索（Valerio Caruso）|侯赛因·希拉利（Hossein Shirali）|克里斯托夫·布盖（Christophe Bouget）|皮埃尔菲利波·切雷蒂（Pierfilippo Cerretti）|詹弗朗科·库莱蒂（Gianfranco Curletti）|马滕·德格鲁特（Maarten de Groot）|伊娃·格罗兹尼克（Eva Groznik）|耶日·M·古托夫斯基（Jerzy M. Gutowski）|克里斯蒂安·皮拉蒂乌克（Christian Pylatiuk）|拉多斯拉夫·普莱瓦（Rados?aw Plewa）|阿兰·罗克斯（Alain Roques）|奥雷利安·萨莱（Aurélien Sallé）|乔恩·斯威尼（Jon Sweeney）|凯特·范罗伊恩（Kate Van Rooyen）|洛伦茨·维赫尔（Lorenz Wührl）|达维德·拉萨蒂（Davide Rassati）

帕多瓦大学农学、食品、自然资源、动物与环境系（DAFNAE），意大利莱尼亚罗（Legnaro，PD）大学路16号，邮编35020
https://ror.org/00240q980

**摘要**
**Agrilus**属包括两种对植物健康构成特别威胁的物种：**Agrilus planipennis**和**A. anxius**，这两种物种受到欧盟法规的监管。这意味着所有欧盟国家的植物检疫机构都有义务建立特定的监测计划，以核实其领土内不存在这些物种。这些活动通常涉及使用绿色陷阱，然而这些陷阱不仅对**A. planipennis**和**A. anxius**具有吸引力，也对许多其他**Agrilus**物种具有吸引力。因此，对样本进行分类和鉴定需要大量时间和专业知识，这阻碍了快速有效的响应。在这项研究中，我们测试了**Entomoscope**的有效性。**Entomoscope**是一种低成本的开源光学显微镜，它使用高分辨率数字成像技术，并允许预训练的卷积神经网络（CNN）模型准确检测、成像和分类昆虫样本，从而实现包括**A. planipennis**和**A. anxius**在内的13种**Agrilus**物种的自动识别。我们对三种不同的CNN架构进行了基准测试，并选择**YOLOv8l**作为表现最稳健的模型；该模型在“真实世界”测试集（即模拟实际监测条件的数据集）上的Top-1准确率为90.2%。对于大多数物种（包括**A. planipennis**和**A. anxius**），要么没有错误，要么只有少数错误；而对于一些本地物种，误识别更为常见。这些结果为基于人工智能的监测系统提供了概念证明，该系统可以显著辅助**Agrilus**物种的监测工作。

**引言**
过去一百年来，全球贸易的持续增长，加上过去的故意引种以及正在进行的气候变化，促进了昆虫在不同大陆之间的迁移，并增加了昆虫在新地区的定居可能性（Brockerhoff和Liebhold 2017；Pureswaran等人2022；Fenn-Moltu等人2023；Isitt等人2024）。**Agrilus**属（鞘翅目，拟步甲科）是受这些过程影响的昆虫类群之一，经常被运输并引入新区域。该属包含3341种物种，因此是世界上最物种丰富的动物属之一（Jendek和Grebennikov 2023）。已有超过30种物种在其原产地之外建立种群（Ruzzier等人2023），其中包括导致北美（Kovacs等人2010；Klooster等人2018）、俄罗斯和乌克兰（Orlova-Bienkowskaja等人2020）大规模生态和经济损害的翡翠灰螟**A. planipennis** Fairmaire, 1888。因此，开发用于早期检测意外引入的**Agrilus**物种的工具和策略被确定为研究重点，以便迅速响应并减少入侵地区的潜在影响。
在众多用于**Agrilus**监测计划的工具中，目前全球许多植物检疫机构采用了在入口点及其周围森林中设置的带饵或无饵的绿色陷阱（Evans等人2020；Imrei等人2020；Silk等人2020；Dodds等人2024；Duan等人2024；Santoiemma等人2024a）。这些陷阱主要是基于针对**A. planipennis**的实验室和实地研究开发的（Crook等人2009；Francese等人2010；Poland等人2019），但也对**Agrilus**属内的许多其他物种具有吸引力（Rassati等人2019；Cavaletto等人2020；Kuhn等人2024；Le Souchu等人2024；Santoiemma等人2024b, 2025）。这允许从业者同时监测多种物种，但由于物种间的形态差异较小（Kelnarova等人2019）以及该属极高的物种多样性（Jendek和Grebennikov 2023），对样本进行分类和鉴定需要大量时间和专业知识，从而阻碍了高效快速的响应（Lyal和Miller 2020）。因此，迫切需要新型技术来提高物种鉴定的效率。
人工智能（AI）系统在昆虫学中的应用日益增多（Teixeira等人2023；Hartbauer 2024）。其中，AI用于提高实验室和野外昆虫鉴定的准确性和速度（De Cesaro Júnior和Rieder 2020；Gao等人2024；Hartbauer 2024）。基于图像数据集训练的卷积神经网络（CNN）已被证明可以可靠地在科、属甚至物种层面对昆虫进行分类（Valan等人2019；?rje等人2020；Hansen等人2020；Wührl等人2022；Tannous等人2023；Lertrusdachakul等人2025；Marais等人2025）。然而，在**Agrilus**物种的监测活动中利用这项技术需要实验室和植物健康检查人员配备能够捕捉被捕获样本图像的的设备，并能够自动对其进行物种鉴定。最近由卡尔斯鲁厄理工学院（KIT）开发的**Entomoscope**（Wührl等人2024）可能满足这些需求。它是一种低成本的开源光学显微镜，使用高分辨率数字成像技术，并允许预训练的CNN准确检测、成像和分类昆虫样本（Wührl等人2024）。**Entomoscope**已经在寄生蜂的研究中得到测试（Shirali等人2024），但其在中监测中的应用尚未进行研究。
在这项研究中，我们评估了**Entomoscope**在**Agrilus**物种鉴定方面的有效性，特别关注其在“真实世界”部署中的稳健性，即在模拟实际监测工作流程的数据上的表现，包括在新光照条件、样本状态和操作员处理方式下收集的陷阱样本。首先，我们对比了多种先进的CNN架构以选择最佳性能的模型。其次，我们超越了标准的“实验室”验证方法（即在受控和均匀条件下随机排列的数据上测量的准确性），并使用基于陷阱的模拟监测过程的数据集对这些模型进行了测试。最后，我们测试了模型拒绝训练数据中未包含的“未知”物种的能力，旨在开发一种真正稳健、可部署的AI工具，用于与陷阱结合进行**Agrilus**监测。

**材料与方法**
**Agrilus**样本
本研究的数据集包括来自13种**Agrilus**物种的样本，其中包括11种欧洲本土物种和两种具有高植物检疫风险的外来物种：**A. planipennis**（原产于亚洲）和**A. anxius**（原产于北美）（补充材料1：表SS1，图1）。选择本土物种是因为它们在欧洲针对**Agrilus**属物种的监测研究中经常被收集（Le Souchu等人2024；Santoiemma等人2024b, 2025），而外来物种则因为受到欧盟法规的监管，并且根据欧盟法规2019/2072（EFSA等人2020a, b）要求在欧盟国家进行监测。样本在加拿大、法国、波兰和斯洛文尼亚使用绿色多通道陷阱收集（补充材料1：表SS1）。保存方法因地点而异，包括：丙烯二醇与水的2:1混合物（斯洛文尼亚）；乙二醇与水的1:1混合物（波兰）；单丙二醇与水的2:1混合物，并加入一滴液体洗洁精，或保持干燥，但集成有浸有α-氰戊酯杀虫剂的网片（Storanet?，BASF Pflanzenschutz Deutschland，德国）（法国）；以及饱和盐水溶液加上一滴液体洗洁精以降低表面张力（加拿大）。样本在鉴定前保存在乙醇中。物种级别的分类鉴定最初由伊娃·格罗兹尼克（Eva Groznik）、马滕·德格鲁特（Maarten de Groot）、耶日·M·古托夫斯基（Jerzy M. Gutowski）、阿兰·罗克斯（Alain Roques）、奥雷利安·萨莱（Aurélien Sallé）和凯特·范罗伊恩（Kate Van Rooyen）根据形态特征、鉴定钥匙和其他参考材料（Schaefer 1950；Farrugia 2007；Paiero等人2012）进行，随后由詹弗朗科·库莱蒂（Gianfranco Curletti）确认。

**下载：**下载高分辨率图像（1MB）
**下载：**下载全尺寸图像

**图1.** 使用**Entomoscope**拍摄的一些**Agrilus**样本的示例。A. **A. angustulus**；B. **A. anxius**；C. **A. cuprescens**；D. **A. graminis**；E. **A. hastulifer**；F. **A. laticornis**；G. **A. obscuricollis**；H. **A. olivicolor**；I. **A. planipennis**；J. **A. pratensis**；K. **A. sulcicollis**；L. **A. viridis**。注意：这些图片之间的比例并不真实。

**图像采集**
我们使用了**Entomoscope**的“插件”版本（Wührl等人2024）建立了标准化的成像协议。使用了两个**Entomoscope**设备（补充材料1：图S1）：一个位于帕多瓦大学DAFNAE部门，另一个位于罗马La Sapienza大学的昆虫学博物馆。为了模拟植物检疫人员面临的实际条件，样本未被人工操作或移动（或者至少在识别过程中移动得很少）。相反，它们在自然保存状态下（即“死亡姿势”）被拍摄，并且不分性别。每个样本从两个到五个标准角度进行拍摄，以确保全面的形态覆盖：背部、后背部、侧面、侧腹部和腹部（补充材料1：图S2）。为了减少图像失真，样本被浸入70%的乙醇中。所有图像均使用**Entomoscope**和标准强度的光线进行拍摄。为了创建每个角度的单张聚焦图像，使用了Helicon Focus（v.8.2.2）的焦点堆叠技术。

**数据集准备和评估策略**
我们的评估策略旨在评估模型在面对监测挑战时的稳健性。数据集包含14个类别：13种**Agrilus**物种和一个“背景”类别。“背景”类别包括89张空**Entomoscope**设置的照片（空培养皿，含和不含乙醇），在各种光照条件下拍摄，以模拟非目标图像。在模型开发中包含的13个物种中，每个物种的样本数量从11到59不等（平均值±标准差=36.1±13.8；见补充材料1：表SS1），总共469个样本。每个样本提供了两到六张图像（五个角度），从而为模型训练和评估提供了多个图像。整个数据集首先在样本层面进行分割（以防止数据泄露）。这种分割按类别分层（以保持所有14个类别的分布），但按采集时间排序（以创建真实的时间分割）。创建了两组图像：i）开发集，包括排序分层数据集中的前85%的图像。这组数据代表了所有模型训练和验证可用的数据；ii）保留的“真实世界”集，包括排序分层数据集中的最后15%的图像。由于这些图像是在之后收集的，它们可能包含光照、操作设置或新的样本批次的微妙变化，因此用作具有挑战性的OOD测试集，模拟监测中常见的数据漂移（通常称为Out-Of-Distribution或OOD数据集）。
我们的评估分为两个阶段。第一阶段是模型基准测试。特别是，我们使用开发集的70/15分部（总量的85%）训练了11个模型变体（来自You Only Look Once [YOLOv8, YOLO11]和EfficientNet系列）。这意味着开发集的前70%用于训练，15%用于选择最佳模型。这些模型还在OOD集上进行了评估，以确定简单有序训练策略下的基线性能。第二阶段是稳健性评估。表现最佳的模型被进一步评估。我们仅在85%的开发集上进行了随机排列的分层5折交叉验证（CV）。折叠在样本ID层面进行分割，以防止数据泄露。对于每个训练折叠，我们进行了两种不同的评估：i）标准验证（IID）：在跨验证中保留的验证折叠上测量性能。这代表了在随机排列的数据上的标准测试（独立同分布或IID）；ii）真实世界验证（OOD）。然后用相同的模型测试剩余的15%（未用于训练和验证过程的OOD集），以衡量对数据漂移的稳健性。我们推荐的方法的最终报告指标是这五个折叠的平均值和标准差。这一过程验证了训练协议的有效性。为了测试模型对未知物种的识别能力，我们创建了一个额外的类别，仅用于测试“未知”物种（见下文）。这个类别包含了训练集中没有的两种昆虫：A. biguttatus 和 A. convexicollis。

**模型架构**
我们评估并比较了三种先进的卷积神经网络（CNN）架构，用于我们的细致分类任务，分别是 YOLOv8、YOLO11 和 EfficientNet。所有模型都使用在 ImageNet 数据集（Deng 等，2009 年）上预训练的权重进行初始化，然后在我们自己的 Agrilus 数据集上进行微调。Ultralytics YOLO（Limberg 等，2022 年；Jocher 等，2023 年；Khanam 和 Hussain，2024 年）框架提供了一套针对各种计算机视觉任务优化的模型。每个模型版本都有五种尺寸（纳米型、小型、中型、大型和特大型），这些尺寸在速度和准确性之间提供了平衡。在本研究中，我们选择了它们的专用分类模型。这些模型利用强大且高效的 YOLO 架构进行特征提取，但采用标准的分类头，这使它们与目标检测变体不同，非常适合图像分类。它们的加入使我们能够评估在推理速度和准确性之间提供最佳平衡的架构，这对于未来在高吞吐量监控系统中的部署至关重要。为了将 YOLO 模型与一个成熟的纯分类架构进行基准测试，我们还包括了 EfficientNet（Tan 和 Le，2019 年）。这个模型系列因采用原理性的复合缩放方法而闻名于高准确性，并作为分类性能的强大基准。我们使用了 EfficientNetV2 大型版本（Tan 和 Le，2021 年）。这种比较方法允许我们对比针对速度和效率优化的模型（YOLO 系列）与旨在最大化分类准确性的架构（EfficientNet）。

**模型训练和实现**
所有模型都是在卡尔斯鲁厄理工学院的 HAICORE 高性能计算集群上训练的，该集群配备了 NVIDIA A100-SXM4-40GB GPU。软件环境包括 Python（v. 3.10）和 PyTorch（v. 2.0.1）用于 YOLO 模型，以及 TensorFlow（v. 2.10）和 Keras 用于 EfficientNetV2 模型。我们对所有模型都使用了迁移学习，用在 ImageNet 数据集（Deng 等，2009 年）上预训练的权重进行初始化，以加速训练并提高泛化能力。输入图像被调整到每种架构所需的输入尺寸（例如 YOLOv8 的 640×640，EfficientNetV2L 的 480×480），并应用了标准的数据增强技术（例如随机翻转、旋转、颜色调整、擦除）。为了确保稳健的泛化并防止过拟合，我们采用了一致的优化策略。所有模型都使用了 AdamW 优化器（Loshchilov 和 Hutter，2017 年）并进行dropout正则化（比率 = 0.3）。如果验证损失连续 15 个周期没有改善，则使用提前停止机制来终止训练，最大限制为 150 个周期。为了解决数据集中的固有类别不平衡问题，我们对损失函数应用了类别权重。对于 EfficientNetV2 模型，使用了分类焦点交叉熵损失来进一步优先处理难以分类的示例，而 YOLO 模型则使用其框架的标准加权损失函数。训练和验证曲线以及准确性曲线显示在图 2 中。学习动态在各个折叠中显示出相似的模式，损失持续下降并且准确性稳定；因此，这里展示了一个代表性的示例（第 4 折叠）。所有用于训练和测试的图像以及在分类流程中使用的脚本都可以在 Zenodo（www.zenodo.org）仓库中找到。

**下载：** 下载高分辨率图像（132KB）
**下载：** 下载全尺寸图像

**图 2.** 在其中一个交叉验证折叠期间，YOLOv8l 模型的代表性训练和验证曲线。图表显示训练损失（A）和验证损失（B）随时间减少，表明学习有效；验证集上的 Top-1 准确率（C）和 Top-5 准确率（D）增加并稳定，证明没有过拟合。蓝色实线 = 结果；橙色虚线 = 平滑曲线。

**性能评估指标**
模型性能使用了一整套指标进行评估，分两个不同的阶段进行。在第一阶段（基准测试）中，根据 Top-1 验证准确率对模型进行排名。它们在 OOD 集合上的表现也被记录下来。在第二阶段（鲁棒性）中，5 折交叉验证模型在 IID 验证折叠和 OOD 测试集上使用 Top-1 准确率和加权 F1 分数进行评估。最终方法的表现是 5 折交叉验证结果的平均值。生成了一份完整的分类报告和一个汇总的混淆矩阵，汇总了所有五个折叠的预测结果。为了测试模型处理训练过程中未包含的物种的能力，我们添加了一个名为“未知”的额外类别。实际上，我们的模型没有“超出类别”的机制来排除不属于任何训练类别的图像，因此它仍然尝试将图像与最相似的物种关联起来。当图像与用于训练的图像非常不同时，预测的置信水平（max_conf）通常很低。在我们的案例中，我们将这个置信水平设置为 0.5，意味着模型将忽略所有置信度低于 50% 的预测。这个阈值遵循了标准惯例，因为它代表了基于概率的分类任务中的中性决策边界。为了测试这种机制，我们使用了 19 张属于两个未用于训练过程的本地物种的图像（即 8 张属于 A. biguttatus 的标本和 11 张属于 A. convexicollis 的标本）。

**模型可解释性**
为了深入了解模型的决策过程，我们采用了 Eigen-CAM 可解释性技术（Muhammad 和 Yeasin，2020 年）。Eigen-CAM 生成了突出显示对给定分类最具影响力的图像区域的显著性图，从而可以对模型是否关注相关形态特征进行定性评估。

**结果**
**第 1 阶段：模型基准测试**
11 个模型变体在有序的 70% 的训练集上进行了训练，并根据它们在有序的 15% 验证集上的 Top-1 准确率进行排名（表 1）。EfficientNetV2L 和 YOLOv8l 表现最佳，验证准确率均为 88.9%（0.8885）。这两个模型被选用于全面的第 2 阶段评估。当在 OOD 集合上测试时，这些来自简单有序训练策略的模型表现平平。表现最好的 YOLOv8l 达到了 85.0% 的 Top-1 准确率（表 1），为后续的鲁棒性测试建立了基准。

**表 1.** 11 个模型变体（YOLOv8l 和 EfficientNetV2L）的基准测试。报告了验证集上的 Top-1 准确率（有序分割）以及在保留的真实世界 OOD 测试集上的测试 Top-1 准确率和测试加权 F1 分数。值以 95% 置信区间（Wilson）的形式报告，以量化由于有限验证/测试样本大小导致的不确定性。
- 验证 Top-1 准确率（95% CI）
- 测试 Top-1 准确率（95% CI）
- 测试加权 F1 分数

**第 2 阶段：标准测试与真实世界测试的鲁棒性评估**
前两名模型 YOLOv8l 和 EfficientNetV2L 进行了 5 折交叉验证。这两种模型在 IID 验证折叠上几乎达到了完美的准确率，YOLOv8l 的平均准确率为 97.9 ± 1.4%，EfficientNetV2L 的平均准确率为 97.2 ± 2.4%（表 2，图 3）。然而，当这些相同的模型在我们的 15% OOD 集合上进行测试时，出现了两个关键发现。首先，观察到了性能差距。例如，YOLOv8l 在 IID 折叠上的准确率为 97.9%，而在 OOD 集合上的准确率为 90.2%，相差 7.7 个百分点。其次，使用鲁棒的随机洗牌交叉验证方法（第 2 阶段）训练的模型在 OOD 集合上的准确率高于使用简单有序训练（第 1 阶段）的模型。CV 训练的 YOLOv8l 的平均 Top-1 准确率为 90.2 ± 1.9%，而第 1 阶段有序分割模型的准确率为 85.0%。在这个 OOD 测试中，YOLOv8l 方法的平均 Top-1 准确率和加权 F1 分数分别更高（90.2 ± 1.9% 和 88.2 ± 2.4%）。

**最终 YOLOv8l 模型性能（5 折平均值）**
基于其更高的鲁棒性和性能，YOLOv8l 被选为我们的最终推荐方法。训练有素的 CNN 在 7 种物种上 100% 的时间正确分配了最高比例的正确物种对应关系，即非本地的 A. anxius 和 A. planipennis 以及本地的 A. angustulus、A. betuleti、A. cuprescens、A. graminis 和 A. olivicolor（图 4）。对于其他四种物种，训练有素的 CNN 在 86% 到 98% 的时间正确分配了最高比例的正确物种对应关系（图 4）。特别是，本地物种 A. laticornis 的识别准确率为 92%（分别有 4% 和 5% 的 A. laticornis 被误认为是 A. angustulus 和 A. graminis），本地物种 A. obscuricollis 的准确率为 95%（3.5% 被误认为是 A. olivicolor，1.5% 被误认为是 A. hastulifer），本地物种 A. sulcicollis 的准确率为 86.0%（9% 被误认为是 A. laticornis，1% 被误认为是 A. planipennis，3% 被误认为是 A. angustulus），以及本地物种 A. viridis 的准确率为 98%（2% 被误认为是 A. graminis）。经常被误识别的 Agrilus 物种是 A. hastulifer 和 A. pratensis。对于 A. hastulifer，训练有素的 CNN 65% 的时间将其正确分配给 A. graminis，21% 的时间分配给 A. viridis（图 4），使得 A. hastulifer 成为正确分类比例最低的类别（9%）。对于 A. pratensis，训练有素的 CNN 58% 的时间将其正确分配给 A. obscuricollis，2% 的时间分配给 A. hastulifer（图 4）。完整的每类指标（精确度、召回率、F1 分数、支持度；五个折叠的平均值 ± 标准差）在补充材料 1：表 SS2 中提供。

**下载：** 下载高分辨率图像（519KB）
**下载：** 下载全尺寸图像

**图 4.** YOLOv8l 在保留的真实世界（OOD）测试集上的汇总混淆矩阵。该矩阵代表了五个交叉验证折叠中所有预测的总和，显示了每个类别的分类准确性，并突出了误分类的主要来源。真实类别（Y 轴）表示真实的物种身份。预测类别（X 轴）表示模型分析的物种。准确性的程度以数值形式报告，显示了被分配给给定物种的样本百分比，并用蓝色表示正确预测，用红色表示错误预测（浅蓝色和红色都表示预测程度低）。

**超出分布物种的识别**
模型的拒绝能力在 OOD 集合上进行了测试。在五个折叠的平均值中，YOLOv8l 方法正确地将“未知”类别（A. biguttatus 和 A. convexicollis）的 19 张图像 100% 分类为未知物种，使用的是 0.5 的置信阈值。

**模型的可解释性**
对训练有素的 YOLOv8l 模型的 Eigen-CAM 分析显示，分类决策依赖于特定的形态区域。例如，模型一致地关注了大多数标本在背侧和侧背视图中鞘翅的独特形状和纹理（A. angustulus，图 5A；A. olivicolor，图 5C），以及头部形态——特别是前胸边缘、眼睛和上颚（A. olivicolor，图 5C）。在侧视图和腹视图中，关键特征（如腹节甲的形状（A. angustulus，图 5B；A. planipennis，图 5D）、眼睛的结构（A. planipennis，图 5D）以及在许多情况下鞘翅）尤其具有影响力。热图显示了对模型预测影响最大的图像区域（红色代表高影响，蓝色代表低影响）。讨论：Agrilus属包括两个物种，A. planipennis和A. anxius，由于它们在受侵地区可能造成的经济和生态影响，这两个物种特别值得关注（Baranchikov等人，2008年，2014年；Kovacs等人，2010年；Klooster等人，2018年；Evans等人，2020年），因此受到欧盟法规的监管（EFSA等人，2020a年，2020b年）。这意味着所有欧盟国家的植物卫生机构都有义务建立特定的监测计划来验证其领土上是否不存在这些物种（Evans等人，2020年）。这些活动通常包括使用绿色陷阱，然而，这些陷阱不仅对A. planipennis和A. anxius有吸引力，也对其他多种Agrilus物种有吸引力（Rassati等人，2019年；Cavaletto等人，2020年；Le Souchu等人，2024年；Santoiemma等人，2024a年，2024b年，2025年）。在这里，我们展示了Entomoscope结合我们经过验证的深度学习方法可以显著帮助区分A. planipennis和A. anxius与其他常见的本地Agrilus物种，这一过程通常需要大量时间和分类学专业知识。我们经过验证的YOLOv8l方法在真实数据集上的平均Top-1准确率为90.2%，这证明了它作为一个实用的分诊工具的概念验证。它对关键害虫A. planipennis和A. anxius的完美识别（100% F1分数）以及对“背景”类的几乎完美识别，展示了其对植物卫生机构的即时价值。该系统可以自动筛选数千个样本，过滤掉空白图像，只标记出需要专家审查的高优先级害虫。然而，该模型并不是一个无懈可击的分类学家。汇总的混淆矩阵显示，在一些本地物种中仍然会发生误分类，特别是A. hastulifer和A. pratensis。这相当令人惊讶，因为使用经典分类方法可以很容易地分离这些物种（Schaefer 1950年；Farrugia 2007年）。这可能是由于模型使用的特征所致。对于测试样本数量有限的物种，如A. cuprescens和A. betuleti，应谨慎解释性能指标。尽管如此，这些类别一贯高的分类性能指标表明，即使模型在相对较小的样本量上进行训练和评估，也能够可靠地捕捉到诊断性视觉特征。与其他许多CNN一样，这些模型仅部分基于分类学家使用的形态特征（如生殖器、刚毛和毛发的分布、大小等）（例如Volkovitsh等人，2020年），而是基于算法识别为区分特征的像素簇的排列和强度（Goodfellow等人，2016年；Redmon等人，2016年）。我们的Eigen-CAM分析支持这一点，表明根据样本的位置、身体的总体形状以及头部、鞘翅和前胸背板的边缘或腹部腹板形状，额头和上颚的长度等特征被用来区分测试的Agrilus物种。这可能导致难以区分的物种（如A. obscuricollis）得到准确分类，但在尝试区分使用经典分类方法容易分离的物种（如A. hastulifer和A. pratensis）时也可能出现失败。总体而言，这些结果表明Entomoscope和当前方法对于监测A. planipennis和A. anxius非常有用，但尚未准备好能够将陷阱中收集的所有本地物种识别到物种水平。我们的结果还展示了训练有素的CNN拒绝非目标图像的能力。当识别不属于训练过程中使用的物种的样本（如A. biguttatus和A. convexicollis）时，我们的方法正确地将100%的样本分配到“未知”类别。多项诱捕研究表明，使用绿色陷阱可以捕获许多Agrilus物种（例如Santoiemma等人，2024a年，2024b年）。这些物种可能包括低密度存在的本地物种或最初未针对的非本地物种。在这种情况下，训练有素的方法区分已知物种和未知物种的能力可以提醒植物卫生人员注意可能存在需要通过经典形态学或分子方法进一步检查的非本地物种。我们的结果还表明，验证方法对于确定实际可行性至关重要。我们的研究表明，在“IID”测试和更现实的“OOD”数据集之间存在显著的“验证差距”。虽然我们的最佳模型在“实验室”环境中实现了接近完美的准确率（97-98%），但在面对模拟新采集事件的数据时，这一性能下降了超过7个百分点。这一发现强烈表明，仅基于简单随机分割报告准确率的研究可能过于乐观，针对OOD数据进行测试对于验证可部署的生物安全工具是必不可少的。此外，我们的研究为如何训练一个鲁棒的模型提供了关键见解。我们在初始基准测试中使用的简单有序分割模型在OOD数据集上实现了85.0%的准确率。然而，使用随机洗牌的5折交叉验证（在完全相同的发展数据上）训练的模型明显更优，平均准确率为90.2%。这证明，一个暴露模型于更多多样化和随机数据组合的鲁棒训练策略与模型架构本身一样重要，对于构建能够泛化到新数据的工具至关重要。这种性能差距并不统一。有趣的是，尽管EfficientNetV2L在我们的初始基准测试中得分最高，但YOLOv8l模型证明更为稳健，在具有挑战性的OOD数据集上表现更好。这表明YOLOv8l的架构特性可能更好地泛化到现实世界监控中固有的细微数据漂移（例如光照、姿态或操作员处理）。除了领域转换之外，应用基于图像的分类中的另一个重要挑战是“开放世界”或语义转换问题。在操作监控环境中，陷阱可能会捕获大量训练数据集中没有代表的非目标物种。在这种情况下，封闭集分类器可能会错误地将这些样本分配到已知类别中，而不是将它们作为未知样本拒绝。我们认识到，这种限制是由于在有限且预定义的分类群集上训练的监督分类方法所固有的。因此，自动化识别应被视为一种决策支持和分诊工具，而不是完全自主替代专家分类评估，至少在当前的技术和数据可用性限制下是这样。实际上，这意味着应该定期由分类学专家核实一小部分样本，特别是那些置信度较低的样本或代表每个预测物种的样本。重要的是，本研究中选择的物种是一些在欧洲诱捕计划中最常收集的Agrilus物种，这在典型的监控条件下减少了语义转换的实际影响。结论：本研究提供了一个结合Entomoscope和经过验证的深度学习方法的人工智能驱动系统的稳健概念验证，用于监测Agrilus宝石甲虫。我们已经证明，最终的YOLOv8l方法是一个可靠的分诊工具，能够完美识别高优先级害虫A. planipennis和A. anxius，正确过滤背景噪声并有效拒绝未知物种。此外，我们提出了一个超越标准“实验室”准确率的验证框架，以测试对现实世界数据漂变的鲁棒性。在OD数据集上进行评估的方法对于弥合有前途的模型和可信赖的、可部署的植物卫生监控工具之间的差距至关重要。从长期来看，逐步扩展和多样化参考图像数据集是缓解开放世界问题的最有效策略。增加分类学和表型覆盖将减少分类错误，并逐步将罕见或意外的分类群限制在影响有限的“未知”类别中。同时，这项技术的开源性质，加上设置和操作Entomoscope的相对低成本，使得基于AI的识别系统非常适合技术转移计划。这些系统可以整合到植物卫生人员、林业人员和环境机构的培训项目中，增加对基于AI的识别技术的了解，并鼓励他们积极参与大规模监测工作。未来的工作将专注于扩展物种库，并将此模型整合到一个不需要广泛实验室基础设施的现场就绪的快速警报系统中（Brydegaard等人，2024年；Chiavassa等人，2024年），以及将基于CNN的图像分类与其他诊断方法（如分子工具）相结合的混合方法。与Entomoscope连接的基于云或移动应用程序可以让用户上传图像并实时接收自动识别结果，大大提高了系统的可访问性和实用性。这样的创新不仅将促进植物卫生监控中的快速物种识别，还有助于更广泛的生物多样性评估工作。附加信息：利益冲突：作者声明没有利益冲突。伦理声明：未报告伦理声明。AI的使用：未报告AI的使用。资金支持：这项工作得到了项目“Improving Forest Insect Biosecurity in an era of globalization – FORBIO”的支持，该项目由欧盟-下一代欧盟、Mission 4、Component 1、CUP:C53D23009620001和B53D23032040001资助，并部分由欧盟的Horizon Europe研究和创新计划根据授权协议号101134200“FORSAID: 使用人工智能和数字技术的森林监控”资助。MdG和EG由斯洛文尼亚共和国食品安全、兽医部门和植物保护管理局（合同号C2337-23-000026）和斯洛文尼亚研究机构（研究计划P4-0107）资助；HS和CP由Helmholtz协会的自然、人工和认知信息处理（NACIP）计划下的授予号ZF4717901SK9资助。作者贡献：Valerio Caruso：撰写——原始草稿、方法论、调查、形式分析、数据管理、概念化、可视化；Hossein Shirali：撰写——原始草稿、方法论、调查、形式分析、可视化；Christophe Bouget：撰写——审阅和编辑；Pierfilippo Cerretti：撰写——原始草稿、概念化、监督、资金获取；Gianfranco Curletti：撰写——审阅和编辑、数据管理；Maarten de Groot：撰写——审阅和编辑、资源；Eva Groznik：撰写——审阅和编辑、资源；Jerzy M. Gutowski：撰写——审阅和编辑、资源；Pyliatuk：撰写——审阅和编辑、资源、方法论；Rados?aw Plewa：撰写——审阅和编辑、资源；Alain Roques：撰写——审阅和编辑、资源；Aurelién Sallé：撰写——审阅和编辑、资源；Jon Sweeney：撰写——审阅和编辑、资源；Kate Van Rooyen：撰写——审阅和编辑、资源；Lorenz Wührl：撰写——审阅和编辑、方法论；Davide Rassati：撰写——原始草稿、方法论、调查、形式分析、数据管理、概念化、监督、可视化、资金获取、项目管理。作者ORCIDs：Valerio Caruso：https://orcid.org/0009-0006-9421-7447；Hossein Shirali：https://orcid.org/0009-0005-6884-4263；Christophe Bouget：https://orcid.org/0000-0002-5206-7560；Pierfilippo Cerretti：https://orcid.org/0000-0002-9204-3352；Maarten de Groot：https://orcid.org/0000-0002-5721-6676；Eva Groznik：https://orcid.org/0009-0006-9647-2871；Christian Pylatiuk：https://orcid.org/0000-0002-3507-7134；Jon Sweeney：https://orcid.org/0000-0003-3391-2375。数据可用性：本研究使用的所有图像数据和开发的代码均可在Zenodo仓库中找到：https://doi.org/10.5281/zenodo.14998760。补充材料：补充材料1. 10.3897/neobiota.105.180959.suppl1FE9377E4-0FD7-59B4-9A1C-C86C5558491C。下载：下载Word文档（3MB）Valerio Caruso, Hossein Shirali, Christophe Bouget, Pierfilippo Cerretti, Gianfranco Curletti, Maarten de Groot, Eva Groznik, Jerzy M. Gutowski, Christian Pylatiuk, Rados?aw Plewa, Alain Roques, Aurelien Salle, Jon Sweeney, Kate Van Rooyen, Lorenz Wührl, Davide Rassati。

热点排行