为自动化监测中高精度的鱼类分类,对视觉-语言特征进行时间聚合处理

《Ecological Informatics》:Temporal aggregation of vision-language features for high-accuracy fish classification in automated monitoring

【字体: 时间:2025年10月15日 来源:Ecological Informatics 7.3

编辑推荐:

  本研究提出基于SigLIP架构的零样本学习框架,结合时间特征聚合策略,无需帧级标注或预处理即可高效检测和分类冰岛河流中的三种鳟鱼物种。实验表明,该模型在鱼类检测(99.1%准确率)、多鱼检测(98.2%准确率)和物种分类(97.5%准确率)上均优于传统ResNet50模型,且训练数据需求减少76%,验证了嵌入模型在自动生态监测中的有效性。

  在海洋和淡水生态系统研究中,鱼种分类一直是重要而具有挑战性的任务。传统的图像识别方法往往依赖于大量标注数据以及复杂的预处理流程,而这些限制在实际应用中可能带来额外的困难。本文提出了一种基于对比学习的图像-语言预训练模型(CLIP)及其变体SigLIP的新方法,通过引入零样本学习和时间特征聚合策略,能够在无需帧级标注和预处理的条件下实现高效的鱼种分类。该方法特别适用于受控的水下环境,比如固定摄像头位置和稳定光照条件的河流监测场景。通过对比不同模型的性能,研究发现基于SigLIP的架构在鱼种识别任务中表现尤为突出,展现出更高的准确率和更强的鲁棒性。同时,通过优化提示工程,研究者进一步提升了模型的分类能力,并减少了对训练数据的依赖。

本文的研究重点在于开发一个完整的系统流程,用于识别和分类三种鲑科鱼类(大西洋鲑、鳟鱼和北极红点鲑)。通过使用预训练模型提取图像特征,并结合文本描述进行相似性计算,模型能够实现高精度的分类任务。研究中还探讨了多种时间信息聚合方法,包括中心帧选择、时间投票和时间池化,并通过交叉验证和参数优化,确保模型在不同数据分割下的稳定性。最终结果表明,时间池化方法在分类任务中表现最佳,尤其在识别形态相似的鱼种时,其性能显著优于单帧分类方法和传统ResNet-50模型。

研究中的实验数据来源于冰岛的三个河流(Krossá、Laxá和Selá)中由Vaki的Riverwatcher鱼计数器采集的水下视频。这些视频具有不同的清晰度、光照条件和鱼种出现频率,其中某些河流的某些鱼种(如鳟鱼和北极红点鲑)出现频率较低,而大西洋鲑则在各河流中分布较为均匀。由于水下视频通常由运动触发记录,导致视频中可能存在多个鱼种或多个鱼体同时出现的情况,这增加了分类的复杂性。为了解决这一问题,研究团队设计了一套两阶段的检测流程:第一阶段用于识别视频中是否存在鱼体,第二阶段则用于识别视频中是否包含多个鱼体。这些方法有效地减少了误检和多鱼情况对分类结果的影响,从而提升了模型的整体性能。

在模型评估方面,研究采用了多种指标,包括准确率、精确率、召回率和F1分数,以全面衡量模型在不同场景下的表现。通过分析模型在不同阈值下的性能变化,研究者确定了最佳的检测阈值,并验证了其在测试集上的有效性。此外,通过混淆矩阵和置信度分析,研究进一步揭示了模型在识别特定鱼种时的表现差异。例如,鳟鱼由于其形态特征相对明显,因此在所有方法中被正确分类的比例最高,而北极红点鲑由于其形态特征较为相似,分类难度较大。研究还探讨了模型在不同光照条件、水体透明度和生物附着情况下的鲁棒性,发现基于SigLIP的模型在这些条件下仍能保持较高的分类性能,这表明该方法在复杂水下环境中具有广泛的应用前景。

研究的创新点在于利用预训练模型提取的嵌入向量进行零样本分类,这不仅减少了对大量标注数据的依赖,还提升了模型在新数据上的泛化能力。同时,通过时间池化策略,模型能够在不增加显著计算负担的前提下,有效整合视频中多个帧的信息,从而提高分类的准确性。实验结果显示,基于时间池化的模型在测试集上达到了96.8%的宏F1分数,显著优于单帧分类和传统方法。此外,研究还发现,使用中心帧作为分类依据的模型虽然在某些情况下表现良好,但其性能受帧质量的影响较大,而时间池化方法则能通过综合多个帧的信息,提高分类的稳定性。

研究还对模型的置信度进行了深入分析,发现低置信度的分类错误主要出现在鱼体位置不典型或颜色异常的情况下。通过专家评估,这些错误可以归因于鱼体在视频中的位置、行为特征或颜色变化,而不是模型本身的问题。因此,研究建议在实际应用中引入置信度阈值机制,将不确定性较高的预测标记出来,供专家进一步核查,从而提升模型的可靠性和准确性。此外,研究还指出,当前方法在处理多个鱼体出现在同一帧或不同视频段的情况时存在一定的局限性,未来可以考虑引入更先进的背景减除技术或分割算法,以更好地分离鱼体与背景,提高模型在复杂场景下的分类能力。

总的来说,本文提出的基于SigLIP和时间池化策略的鱼种分类方法,不仅在受控环境下表现出色,而且在减少训练数据需求和提升分类效率方面具有显著优势。该方法的成功应用为自动化水下生态监测提供了新的思路,同时也为后续研究在更广泛的水下环境中的推广奠定了基础。未来的研究可以进一步探索如何在不规则光照和复杂背景条件下优化模型性能,以及如何将时间池化策略与其他先进的视频分析技术结合,以实现更全面和精确的鱼种识别。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号