
-
生物通官微
陪你抓住生命科技
跳动的脉搏
视觉湿地鸟类数据集:视频中的鸟类物种识别与行为识别研究
【字体: 大 中 小 】 时间:2025年07月12日 来源:Scientific Data 5.8
编辑推荐:
为解决鸟类监测中视频数据集稀缺且缺乏精细行为标注的问题,研究人员开展了"Visual WetlandBirds Dataset"研究,构建了首个包含13种鸟类7类精细行为的视频数据集,通过半自动标注方法获得858个行为片段,并基于YOLOv9和Video ResNet50模型建立了物种分类和行为识别的基准测试,为鸟类生态监测提供了重要数据支持。
在全球生物多样性急剧丧失的背景下,动物监测数据对于保护决策至关重要。然而当前鸟类监测主要依赖音频和图像数据,视频数据集严重匮乏,特别是缺乏精细行为标注的数据。这限制了基于视频的鸟类行为研究及其在生态保护中的应用。西班牙阿利坎特大学(University of Alicante)计算机技术系和生态系的Javier Rodriguez-Juan等研究人员在《Scientific Data》发表研究,构建了首个精细粒度的鸟类行为视频数据集Visual WetlandBirds Dataset,填补了这一领域空白。
研究团队采用相机陷阱和高质量摄像机在西班牙阿利坎特湿地采集数据,通过半自动标注流程结合专业生态学家验证,最终获得178个视频、858个行为片段,涵盖13种鸟类7种行为。关键技术包括:1)使用Browning和Bushnell相机陷阱及Canon摄像机多分辨率采集;2)基于CVAT工具和YOLOv7模型的半自动标注流程;3)欧氏距离算法实现跨帧目标追踪;4)采用YOLOv9和多种视频分类模型(MViT、S3D、SwinTransformer等)建立基准测试。
【数据采集与特征】
研究在西班牙东南部La Mata和El Hondo自然公园湿地开展,采集视频涵盖不同光照条件(日光、日落、弱光等)和季节特征。数据集包含1920×1080px至3840×2160px多种分辨率视频,平均行为片段时长为19.84秒,总时长58分53秒。表3显示黑水鸡(Eurasian moorhen)视频最多(18个),而亮羽鹮(Glossy ibis)最少(8个);表4显示摄食(Feeding)行为片段最多(271个),飞行(Flying)最少(46个)。

【标注方法创新】
研究提出五步半自动标注流程:1)生态学家人工标注主物种;2)YOLOv7自动定位鸟类边界框;3)人工校正边界框并标注行为;4)基于欧氏距离的跨帧目标关联算法;5)最终人工校验。图4展示了该流程,其中关键创新是使用边界框中心点距离公式c=((xmin+xmax)/2,(ymin+ymax)/2)实现目标追踪。标注准则规定:同时发生多行为时优先标注生态相关性高的行为(如摄食优于行走);短于30帧的过渡行为不单独标注(图6)。
【基准测试结果】
物种分类任务中,YOLOv9达到0.835精确度和0.801 mAP50(表6),图8显示主要错误来自背景混淆。行为识别任务中,Video ResNet50表现最佳(准确率0.56),而S3D最差(0.29)(表7)。研究者指出数据量有限是影响行为识别性能的主因。
该研究创建了首个同时标注物种、行为和位置的鸟类视频数据集,其价值体现在:1)提供标准化benchmark推动鸟类行为识别算法发展;2)半自动标注方法显著提升标注效率(Cohen's Kappa=0.858);3)多行为优先级标注策略(图5)和最小帧数规则(图6)为动物行为研究提供范式。未来可通过增加硬件投入和数据增强技术(如合成行为生成)进一步扩展数据集。这项工作为计算机视觉与生态学的交叉研究开辟了新途径,对湿地鸟类保护和生态系统管理具有重要意义。
生物通微信公众号
知名企业招聘