编辑推荐:
在珊瑚礁图像分类中,传统机器学习指标在分布外(OOD)数据集上失效。为此,研究人员在公开珊瑚礁图像数据集上对最新 OOD 检测算法进行基准测试。发现 KNN 距离算法性能最稳定,ViM 次之,该研究为深度学习安全部署提供了有效指标。
珊瑚礁作为海洋生态系统的 “热带雨林”,其健康状况对全球海洋环境至关重要。然而,在利用深度学习技术对珊瑚礁图像进行分类监测时,面临着一个棘手的问题:当环境条件变化、传感器不同或数据采集不一致时,会导致时间序列图像差异显著,出现数据偏移(data shift),使得传统机器学习指标在分布外(Out Of Distribution, OOD)数据集上无法准确评估模型性能。深度学习算法难以量化预测的不确定性,在训练范围外的数据上可能做出错误判断,这对于精准监测珊瑚礁栖息地变化等环境应用产生了重大影响。因此,如何让模型在遇到训练分布外的数据时能够自我识别并提示人工介入,成为了保障深度学习在珊瑚礁监测中安全可靠应用的关键问题。
为了解决这一挑战,国外研究机构的研究人员开展了关于珊瑚礁图像调查中 OOD 检测算法的研究。他们的研究成果发表在《Ecological Informatics》上,旨在通过基准测试最新的 OOD 检测算法,找到适用于珊瑚礁图像分类的有效方法,以提高深度学习在珊瑚礁监测中的安全性和可靠性。
研究人员主要采用了以下关键技术方法:
- 数据集:使用了三个公开的珊瑚礁图像数据集,包括 Rowley Shoals 图像调查数据集、Catlin 海景调查(太平洋地区澳大利亚子集)数据集和 Moorea 珊瑚数据集,每个数据集包含三年的调查图像及人工标注的点注释。
- 深度学习与迁移学习:采用迁移学习方法,使用在大堡礁(GBR)图像上训练过的 EfficientNet B0 基础模型生成图像嵌入,再通过三层神经网络进行学习和分类。
- OOD 检测算法:评估了多种 OOD 检测算法,包括 KNN 距离、ViM(Virtual - logit Matching)、ODIN(Out - of - Distribution detector for Neural networks)、DICE(Density and Invariance - based Confidence Estimation)等。
- 评估指标:使用了 AUROC(Area Under Receiver Operator Characteristic)、FPR95TPR(False Positive Rate at the 95% True Positive Rate)和直方图交集(Histogram Intersection, HI)等指标来评估 OOD 检测算法的性能。
3.1 传统指标在数据集间的表现
通过对传统指标的分析发现,当数据在分布内(In Distribution, ID)时,模型表现良好,具有较高的 F1 分数、置信度(平均 Softmax 概率)和较低的预期校准误差(Expected Calibration Error, ECE);而当数据分布外时,F1 分数降低,置信度高但 ECE 也高,说明传统指标在分布外数据上无法有效评估模型性能。
3.2 检测 OOD 数据集
在近远数据集实验中,对于同区域的近数据集,各算法难以区分,表明数据为分布内;对于不同区域的远数据集,各算法表现出一定的区分能力,其中 KNN 距离算法表现最佳,其 HI 为 0.37±0.15,AUROC 为 0.89±0.07,FPR95TPR 为 0.37±0.22。此外,KNN 距离和 ViM 在 AUROC、FPR95TPR 和 HI 指标上表现突出,能够有效区分分布外数据。
3.3 使数据进入分布
通过迭代训练实验,逐步将分布外数据加入分布内数据进行训练,发现 HI 与 F1 OOD 分数具有强相关性(皮尔逊相关系数为 0.99),当加入约 30% 的分布外数据时,F1 Test 和 F1 OOD 分数趋于一致,表明 HI 可作为模型饱和的指标,指导模型微调。
4. 讨论
研究表明,置信度(SoftMax 概率)不能有效指示模型性能,而 KNN 距离和 ViM 等现成算法能够检测数据偏移。KNN 距离算法性能最优,但处理大规模高维数据集时速度较慢;ViM 性能较好,更适合生产系统。HI 不仅可作为数值指标,还可作为可视化指标,用于比较时间序列调查。此外,现有 OOD 检测方法主要检测协变量偏移,对于珊瑚礁图像中可能存在的语义偏移,仍需进一步研究。
这项研究填补了深度学习在珊瑚礁监测中缺乏可靠不确定性评估指标的空白,为安全部署深度学习模型提供了有效工具。通过引入 KNN 距离等算法,能够在珊瑚礁图像分类中及时检测分布外数据,提示人工介入,避免因模型误判导致的环境报告不准确,对于全球珊瑚礁的保护和管理具有重要的科学意义和实际应用价值。未来研究可进一步拓展至更深水域、温带栖息地的底栖调查以及鱼类和底栖生物的目标检测等领域,以全面提升深度学习在海洋生态监测中的安全性和可靠性。