
-
生物通官微
陪你抓住生命科技
跳动的脉搏
南海珊瑚礁鱼类智能识别大数据集SCSFish2025的构建及其在海洋生态保护中的应用
【字体: 大 中 小 】 时间:2025年08月18日 来源:Scientific Reports 3.9
编辑推荐:
为解决珊瑚礁鱼类自动识别中数据集分辨率低、标注不准确等问题,研究人员构建了首个中国南沙群岛水域公开的高分辨率珊瑚礁鱼类数据集SCSFish2025,包含11,956张图像和120,084个标注框,覆盖30种鱼类。通过RT-DETRv2等模型验证,该数据集mAP@50达0.9960(训练集)和0.7486(测试集),为海洋生物多样性研究和AI技术应用提供重要数据支撑。
珊瑚礁被誉为“海洋热带雨林”,孕育着全球25%的海洋生物,但其覆盖率近几十年已下降近50%。传统人工监测方式难以应对实时、大规模的生态数据采集需求,而现有鱼类识别数据集普遍存在分辨率低、标注粗糙等问题。为此,中国自然资源部南海生态中心等机构的研究人员基于南沙群岛渚碧礁原位监测系统,构建了首个中国海域公开的珊瑚礁鱼类数据集SCSFish2025。
研究团队通过自研的1080P水下摄像机采集视频,筛选出2017年3月至10月间23段视频(487秒/11,956帧),由资深鱼类专家参照FishBase等权威资料完成标注。数据集包含30种鱼类,涵盖蝴蝶鱼科(Chaetodontidae)、刺尾鱼科(Acanthuridae)等关键生态指示物种,并针对模糊(m)、遮挡(z)和姿态变化(_a)等难点标注子类别。
关键技术包括:1)基于DarkLabel的半自动标注流程,结合YOLOv5验证标注质量;2)采用五折交叉验证评估RT-DETRv2、YOLOv10等4种目标检测模型;3)按目标尺寸(TinySet/SmallSet/MediumSet/LargeSet)和难度(HardSet)分层分析性能。
研究结果显示:
数据集特性:SCSFish2025平均每帧含10个实例,24.1%为困难样本,实例面积占比显著低于FishCLEF2015(图3)。

模型性能:RT-DETRv2表现最优(mAP@50:0.9960训练集/0.7486测试集),但对Bodianus axillaris等物种识别率较低(图5),主要受姿态变化和遮挡影响。

资源效率:YOLOv10参数最少(8M)、速度最快(140 FPS),而Faster R-CNN因收敛慢导致性能垫底(表9)。
讨论指出,SCSFish2025的发布填补了中国珊瑚礁鱼类数据空白,其高分辨率、多难度样本和生态指示物种覆盖特性,有助于开发更具泛化能力的AI模型。未来需扩展不同水质、季节和视角的数据,以提升模型在复杂环境下的适用性。该研究发表于《Scientific Reports》,为全球珊瑚礁生态系统智能监测提供了中国方案。
生物通微信公众号
知名企业招聘