基于无人机高分辨率影像的潮间带大型藻类开放数据集:推动机器学习在海洋生态监测中的应用

《Scientific Data》:Dataset of High-Resolution Aerial Images for Intertidal Macroalgae

【字体: 时间:2025年11月21日 来源:Scientific Data 6.9

编辑推荐:

  本刊推荐:为解决潮间带大型藻类传统监测方法资源密集、难以大范围应用的问题,研究团队通过无人机(UAV)和实地拍摄,创建了包含33种东北大西洋潮间带大型藻类的高分辨率RGB影像数据集。该数据集包含三个子集:照片样方(507张)、正射影像(7,954个手动多边形)和个体标签(7,685张),并通过训练卷积神经网络(CNN)获得86.72%的测试准确率,为开发稳健的机器学习模型提供了重要资源。

  
在海洋与陆地交汇的潮间带,大型藻类如同海底森林的守护者,不仅构建着底栖群落的结构,还提供着不可或缺的生态服务。这些藻类对环境压力的敏感性使它们成为生态系统健康的"晴雨表",其群落组成的变化可能引发整个海岸生态系统的连锁反应。然而,传统的监测方法需要研究人员在潮汐间隙进行人工样方调查,不仅耗费大量人力物力,而且由于样方尺寸相对于研究区域较小,监测大范围区域几乎不可行。更棘手的是,人工标记是一项劳动密集型任务,需要专家逐张分割图像,这使得寻找自动分割的新方法成为当务之急。
遥感技术的出现为这一难题提供了有价值的解决方案,特别是无人机(UAV)技术的应用,使得监测海洋沿岸区域和过程的空间、光谱和时间分辨率都得到了显著提升。但并非所有遥感技术都适用于监测潮间带大型藻类群落,这些群落往往在高度异质的区域形成多样的物种镶嵌。当像素分辨率过低时,如卫星影像中那样,准确分割不同种类的大型藻类就面临挑战。无人机凭借其灵活的飞行能力和可搭载多种相机的能力,成为监测海岸区域的理想工具。
尽管无人机技术与机器学习结合展现巨大潜力,但研究人员在开发机器学习算法时常面临训练数据获取的困难,部分原因是某些潮间带区域难以进入或海洋保护区有飞行限制。虽然近年来出现了如Coralnet、海洋垃圾档案(MARIDA)等开放获取的海洋动植物图像数据集,但迄今为止,还没有包含标记的、具有地理参考的大型藻类图像公共数据集可用于机器学习分类任务。
为填补这一空白,由Andrea Martinez-Movilla领导的研究团队在《Scientific Data》上发表了题为"Dataset of High-Resolution Aerial Images for Intertidal Macroalgae"的研究,提供了包含无人机高分辨率影像和实地RGB影像的大型藻类数据集,促进了用于大型藻类分类和语义分割的稳健机器学习模型的开发。
研究方法的核心在于综合运用多种技术手段。研究团队在2019年至2023年间,沿西班牙加利西亚海岸的四个岩石潮间带区域(包括Cies群岛、Oia、Baiona和Illa de Arousa)进行了系统数据采集。通过地理空间定位技术,使用Trimble R8和Leica GS15 VIVA GNSS接收器获取控制地面点(CGPs),确保数据地理参考的准确性。无人机航拍采用DJI Mavic 3 Enterprise和DJI Matrice 300 RTK多旋翼飞行器,搭载宽角相机,设置80%的前向重叠和70%的侧向重叠,飞行高度为12-15米,地面采样距离(GSD)达到0.32-0.52厘米/像素。
数据加工阶段,使用Agisoft Metashape软件对齐航空影像,生成正射影像和数字高程模型(DEM)。标记过程采用量子地理信息系统(QGIS)开源软件,专家手动绘制多边形界定已知类别,平均每个图像标记耗时21±17分钟。标记数据存储为矢量shape文件,包含每个类别的标识符。数据集最终包含三个图像子集:照片样方数据集、正射影像数据集和标签数据集。
数据内容与组成
本研究创建的开放数据集存储在Zenodo平台,包含44个不同类别,其中大型藻类占33个类别(红藻门17个、褐藻门13个、绿藻门3个)。数据集采用九张表的实体关系图结构组织,通过位置标识符(Lid)、类别标识符(Spid)、正射影像标识符(Orthid)等相互关联。
照片样方数据集包含507张地理参考的实地图像,来自四个研究区域:Bufardo(214张)、Oia(80张)、Baiona(102张)和Illa de Arousa(110张)。每张图像都配有相应的矢量形状文件,记录了物种识别数据。正射影像数据集包含9次飞行的数据,矢量形状包括7,954个多边形。由于文件较大,每个正射影像被分为3-4个tif文件。标签数据集包含7,685张png格式图像,每张图像在黑背景上捕获单个标记区域,分为训练(4,696张)和验证(2,989张)两类。
生物量数据集包含22个大型藻类物种的537个生物量实例,来自三个不同地点和两个不同年份的研究数据。这些数据使用精度天平(±0.1g)称量鲜重和干重(在60°C烘箱中干燥至少48小时后)获得,为生物量与覆盖度关系分析提供了宝贵资源。
技术验证与模型性能
为验证数据集的实用性,研究团队训练了一个卷积神经网络(CNN)进行可行性验证。该CNN采用TensorFlow构建,包含 rescaling、random flip、random rotation等数据增强层,以及四个卷积块和全局平均池化层。
模型在测试集上达到了86.72%的整体准确率,交叉熵损失为0.54。通过混淆矩阵分析发现,预测效果最好的类别是未分类材料(100%真实预测),其次是石莼属(Ulva spp.)和Ericaria selaginoides(95%真实预测)。预测效果最差的类别是含有异质藻类混合的岩石,该类被完全(100%)误判为未分类材料。在大型藻类中,预测效果最差的是裙带菜(Sargassum muticum),仅有62%的预测正确,最常与Saccorhiza polyschides、Himanthalia elongata和Bifurcaria bifurcata混淆。这四种物种均属于褐藻类群,具有相似的 coloration,加上水面的反射和光晕,增加了区分难度。
精确度、召回率和f1-score分析显示,含有异质藻类混合的岩石类别的f1-score为零,可能由于其在数据集中代表性不足(仅1个实例)。未分类类别的f1-score第二低(0.36)。所有其余类别的f1-score均高于0.70。裙带菜(Sargassum muticum)的召回率最低(0.62),而Himanthalia elongata在大型藻类中精确度最低(0.69)。Kappa系数显示真实分类与预测分类之间存在高度一致性(κ=0.85)。
研究意义与应用前景
这项研究创建了一个包含东北大西洋33种潮间带大型藻类的无人机和实地高分辨率RGB图像开放数据集,共44个类别。该数据集为需要野外数据的研究人员提供了全面资源,可用于训练和基准测试大型藻类分类算法,以及分析大西洋大型藻类分布的时空趋势。
数据集的一个关键优势在于其多样性。由于使用不同相机采集,每个数据集包含不同像素分辨率的图像,这种变异性增强了数据集的整体多样性,有助于开发能够泛化到不同空间分辨率的模型。数据集还包含从正射影像衍生的数字高程模型(DEM),提供了可能提高分类准确性的辅助信息,因为大型藻类物种分布在不同潮间带。
数据集的设计考虑了实际应用需求。照片样方数据集采用的采集方法已成为监测沿海生境的标准实践,但如此大规模的监测成本高昂、耗时,且必须标准化以便比较不同研究。标签数据集已成功用于基于纹理特征和超像素分类的工作流程优化研究。正射影像数据集可与QGIS等程序结合使用,进行数据的像素级分类。
研究人员也指出了数据集的局限性,特别是类别不平衡问题。在训练CNN时,只包含了训练集中超过100个实例的类别,但某些类别在训练和验证数据集之间仍然存在不平衡。这种不平衡源于生成标签图像的方法论:正射影像的特定部分被指定用于训练,而其他部分保留用于验证。这种策略有助于防止数据泄漏,但由于大型藻类的异质分布,不能保证均衡的类别代表性。
未来用户在使用此数据集时,应评估所使用的机器学习算法是否需要平衡的类别,并通过数据增强或为类别分配权重来解决任何不平衡问题。一种可能的策略是合并整个数据集,然后根据所需的类别比例将其分割为训练集和验证集,但这可能会增加数据泄漏的风险,结果应相应解释。
总体而言,这个名为IMO(潮间带大型藻类)的数据集代表了海洋生态监测领域的重要进展。它不仅提供了高质量的训练数据,还通过详细的元数据和严格的技术验证,确保了数据的可靠性和可重复性。随着机器学习在生态学中的应用日益广泛,这个数据集有望成为开发先进海岸带生态系统监测工具的关键资源,为保护和管理脆弱的潮间带生境提供科学依据。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号