波美拉尼亚鱼类数据集(PomerFish):面向中欧濒危鲑科鱼类原位监测的高分辨率图像资源

《Scientific Data》:Pomerania Fish: A dataset for fishes across Pomerania freshwater waterbodies in-situ environments

【字体: 时间:2025年12月14日 来源:Scientific Data 6.9

编辑推荐:

  本刊推荐:针对淡水生态系统濒危鱼类监测中传统方法有创、eDNA技术难以定量以及现有计算机视觉数据集缺乏原位环境数据等问题,研究人员开展了“波美拉尼亚鱼类”数据集构建研究。该研究通过长达十年的原位视频采集,创建了包含边界框(PomerFishObj)和分割掩码(PomerFishSeg)两个子集的高质量数据集。技术验证表明,基于该数据集的YOLOv5和DeepLabv3模型均表现出色(mAP_0.5达0.91,平均IoU达0.86)。该数据集为基于深度学习的非侵入性鱼类监测、物种生长评估及保护管理提供了关键资源。

  
在气候变化和人类活动的双重压力下,全球淡水生物多样性正面临严峻挑战。作为水生态系统健康的关键指示类群,鱼类的种群动态监测对于保护管理和生态修复至关重要。然而,传统的鱼类监测方法,如电捕鱼和刺网捕捞,虽然有效但存在明显弊端:它们可能对鱼类造成物理创伤甚至导致死亡,尤其对濒危物种的种群可能产生不可逆的影响。另一方面,新兴的环境DNA(eDNA)技术虽具非侵入性优点,但其DNA信号强度与鱼类实际生物量之间的定量关系仍不明确,难以精确评估种群大小。
在这一背景下,结合计算机视觉与深度学习(DL)技术的自动化监测方法展现出巨大潜力。它能够通过对水下视频或图像的分析,实现鱼类的识别、计数甚至行为追踪,是一种理想的、非侵入式的监测解决方案。然而,任何深度学习模型的性能都高度依赖于其训练数据的质量。一个突出的问题是,现有的大多数鱼类图像数据集都是在受控环境下拍摄的(即“非原位”,ex-situ),背景单一,与鱼类在自然栖息地中所处的复杂、多变的水下环境相去甚远。这种数据上的差异会导致训练出的模型在真实场景中表现不佳。特别是对于中欧波美拉尼亚地区这样的关键鲑科鱼类庇护所,亟需一个能够反映其特定物种和复杂水生环境的专用高质量数据集,以支持该地区正在进行的鲑鱼种群恢复项目的效果评估。
为了解决这一关键数据缺口,由Xiaohao Shi、Robert Czerniawski、Kamran Tanwari、Artur Furdyna和Tomasz Krepski组成的研究团队在《Scientific Data》上发表了题为“Pomerania Fish: A dataset for fishes across Pomerania freshwater waterbodies in-situ environments”的数据论文,正式发布了“波美拉尼亚鱼类”(PomerFish)数据集。这项研究旨在为计算机视觉辅助的淡水鱼类监测,尤其是濒危鲑科鱼类的保护,提供一个高质量、高分辨率、源自真实自然栖息地的基准数据集。
研究方法概述
为构建此数据集,研究人员在2015年至2024年间,使用GoPro Hero 5相机在波兰和德国波美拉尼亚地区的多条河流(如Teufelsgraben, Gowienica, Ina等)的自然水体中进行了原位水下视频采集。采集的视频经过VLC媒体播放器预处理,剔除模糊或无关片段后,由三位经验丰富的中欧鱼类学家严格审查,确保图像质量和物种识别准确性。符合高分辨率标准(1920×1080像素)的视频帧被提取出来,随后使用计算机视觉标注工具(CVAT)进行精细标注。数据集最终形成两个子集:PomerFishObj包含14,989张图像及其对应的边界框标注,以及3,273个负样本(无鱼图像),用于目标检测任务;PomerFishSeg包含1,115张图像,其中1,038张带有多边形分割掩码(包括语义分割和实例分割),77个负样本,用于更精细的语义/实例分割任务。为验证数据集的实用性,研究团队分别采用预训练的YOLOv5模型进行目标检测评估,以及采用DeepLabv3_ResNet50模型进行语义分割评估。
数据记录与组织
  • 数据集内容与可及性:PomerFish数据集已通过Zenodo平台公开,包含PomerFishObj和PomerFishSeg两个核心部分。PomerFishObj提供了标准的COCO(Common Objects in Context)格式的边界框标注,而PomerFishSeg则提供了像素级的语义分割(SegmentationClass)和实例分割(SegmentationObject)掩码。这种多层次的数据结构满足了从物种检测到个体形态精细分析的不同研究需求。
  • 数据特征与代表性:该数据集涵盖了波美拉尼亚地区淡水生态系统中10个重要的鱼类类别,重点关注了濒危的鲑科鱼类,如大西洋鲑(Salmo trutta morpha trutta)的雄性和雌性个体,以及河鳟(Salmo trutta morpha fario)的成体和幼体等。数据集的一个显著特点是其真实的类不平衡性,例如雄性大西洋鲑的标注数量远多于雌性,这恰恰反映了自然种群的实际情况,使得基于该数据集训练的模型更能适应真实的生态监测场景。图像采集自沙质、混合底质、石质、砾石区、植物碎屑区和深水区等多种生境,光照和水体浊度也富于变化,保证了数据集的多样性和鲁棒性。
技术验证
  • 目标检测性能:使用PomerFishObj数据集对YOLOv5模型进行微调后,模型在验证集上表现优异。其精确度(Precision)达到0.92,召回率(Recall)为0.90,F1分数为0.91。在目标检测的关键指标平均精度(mean Average Precision, mAP)上,在IoU(Intersection over Union)阈值为0.5时,mAP_0.5高达0.91;在更严格的IoU阈值范围0.5至0.95内,mAP_0.5:0.95也达到了0.73。这表明该数据集能够有效训练出高性能的鱼类目标检测模型。混淆矩阵分析显示,部分物种如河鲈(Perca fluviatilis)与背景存在一定的误判,这提示了未来模型优化需要关注复杂背景下的物种区分能力。
  • 语义分割性能:基于PomerFishSeg数据集训练的DeepLabv3_ResNet50模型同样取得了令人满意的结果。训练过程中,训练损失和验证损失均随迭代次数增加而稳步下降,而平均交并比(mean Intersection over Union, mean IoU)和整体准确率(Accuracy)则持续上升。最终,模型在验证集上的平均IoU为0.86,准确率达到0.98。对各类别的IoU分析显示,除河鳟幼体(IoU为0.61)外,其余所有类别的IoU均超过0.87,证明了该数据集对于实现精准的像素级鱼类分割具有很高的价值,为后续的鱼类形态测量、生长状况评估等精细分析奠定了基础。
结论与意义
PomerFish数据集的发布,填补了淡水生态系统原位鱼类视觉监测领域高质量数据集的空白。与以往多在受控环境下构建的数据集相比,其最大的优势在于“原位性”,即所有数据均直接来源于自然栖息地,真实地反映了鱼类在复杂水下环境中的状态,这对于开发适用于野外实际应用的深度学习模型至关重要。
该数据集具有高分辨率、大数据量、标注精细(涵盖检测与分割)、生境信息丰富等特点,使其不仅能用于基础的鱼类物种识别与计数,更可支持诸如通过形态分割进行个体大小估算、生长状态监测等更深入的生态学研究。这对于评估濒危物种(如中欧地区的鲑科鱼类)的种群恢复成效、制定针对性的保护管理策略具有重要的实践意义。
综上所述,PomerFish数据集为生态学家、保护生物学家和计算机视觉研究者提供了一个强大的资源平台。它有望推动深度学习技术在淡水生物多样性监测、濒危物种保护和生态系统管理中的创新应用,为实现更高效、更精准、更无害的自动化生态监测提供了坚实的数据基础。随着该数据集的公开和推广,预计将吸引更多跨学科团队利用这一资源,共同推动水生生态保护与人工智能技术的深度融合。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号